Cómo configurar BYOK con Ollama y Gemma 4

Probado con Copilot CLI, abril 8, 2026.

Estuve probando la función BYOK (Bring Your Own Key) de GitHub Copilot CLI con una instancia local de Ollama corriendo Gemma 4. La documentación oficial cubre bien el camino feliz. Si no la has leído, empieza por ahí: Usar tus propios modelos LLM en GitHub Copilot CLI. Esto es lo que me encontré después.

Antes que nada: ¿Ollama está corriendo?

Haz esto antes de tocar cualquier variable de entorno:

curl http://localhost:11434/api/tags

Vas a ver tus modelos listados si Ollama está arriba. Si te sale connection refused, no está corriendo. Revisa tu system tray o corre ollama serve primero.

Suena obvio hasta que te pasas 20 minutos debuggeando variables de entorno cuando el problema real era un proceso detenido.

Configura tus variables de entorno

export COPILOT_PROVIDER_BASE_URL=http://localhost:11434
export COPILOT_MODEL=gemma4:31b

Dos cosas que me hicieron perder tiempo. Primero: usa el nombre exacto del modelo que aparece en ollama list. No gemma4, no Gemma-4-31B. Tiene que coincidir exactamente, así que gemma4:31b es lo que va.

Segundo: no configures COPILOT_PROVIDER_API_KEY para Ollama local. No necesita autenticación, y una key vacía puede causar errores que te van a mandar a buscar por el lado equivocado.

El puerto por defecto es 11434, pero si lo cambiaste, puedes verificar con:

# macOS/Linux
lsof -i :11434

# Windows
netstat -an | findstr 11434

Una nota sobre modelos de Anthropic

La documentación sugiere que COPILOT_PROVIDER_BASE_URL puede ser opcional cuando usas Anthropic como proveedor. En mis pruebas (Copilot CLI, abril 8, 2026), el CLI lo requirió de todas formas. Si te salen errores de validación apuntando a Anthropic, configúralo explícitamente:

export COPILOT_PROVIDER_BASE_URL=https://api.anthropic.com
export COPILOT_MODEL=claude-sonnet-4-20250514
export COPILOT_PROVIDER_API_KEY=your-key-here

Si te saltas el base URL, vas a recibir un error de validación cuyo mensaje no lo hace obvio. La documentación y el CLI no están de acuerdo aquí. Configúralo de una vez y sigue adelante.

Pruébalo

copilot

Si conecta, Gemma 4 empieza a responder. Si no, revisa esta lista rápida: Ollama está corriendo, el nombre del modelo coincide exactamente con ollama list, y COPILOT_PROVIDER_API_KEY no está configurada.

Ese último punto específicamente:

unset COPILOT_PROVIDER_API_KEY

Cambiar entre modelos locales y los de GitHub

Esta fue la parte que más me confundió. Al momento de escribir esto (abril 8, 2026), el selector /model dentro de Copilot CLI solo mostraba modelos alojados en GitHub. Claude, GPT-4o, los de siempre. Tus modelos BYOK locales no aparecían ahí.

BYOK funciona a nivel de sesión. O estás usando tus variables de entorno o estás usando modelos de GitHub. Para cambiar, sales de Copilot y reinicias con variables diferentes:

# Ollama local
export COPILOT_PROVIDER_BASE_URL=http://localhost:11434
export COPILOT_MODEL=gemma4:31b
copilot

# Volver a los modelos de GitHub (sal de copilot primero)
unset COPILOT_PROVIDER_BASE_URL
unset COPILOT_MODEL
copilot

Me cansé de escribir todo eso, así que creé aliases:

alias copilot-local='COPILOT_PROVIDER_BASE_URL=http://localhost:11434 COPILOT_MODEL=gemma4:31b copilot'
alias copilot-github='copilot'

Lo que esto realmente te da

Tu máquina, tu modelo, tu control.

GitHub agrega soporte de modelos rápido, pero el catálogo hosteado son modelos de propósito general. BYOK es donde entran los especializados.

Si tu organización ya corre modelos a través de Azure AI Foundry, este es el camino más natural. Despliega un modelo en Foundry (un GPT fine-tuned, Mistral, Llama, o un modelo específico de tu dominio que tu equipo entrenó) y apunta Copilot CLI hacia él:

export COPILOT_PROVIDER_BASE_URL=https://YOUR-RESOURCE-NAME.openai.azure.com/openai/deployments/YOUR-DEPLOYMENT-NAME
export COPILOT_PROVIDER_TYPE=azure
export COPILOT_PROVIDER_API_KEY=your-azure-api-key
export COPILOT_MODEL=YOUR-DEPLOYMENT-NAME

Equipos de medicina, legal, finanzas corriendo modelos fine-tuned en infraestructura privada: así es como lo traes a tu flujo de trabajo en Copilot CLI sin que nada salga de tu tenant de Azure.

El mismo patrón funciona para cualquier endpoint compatible con OpenAI. OpenAI directo, Mistral, Cohere, Together AI, un fine-tune auto-hosteado. Configura COPILOT_PROVIDER_BASE_URL y COPILOT_MODEL, igual que arriba.

# Ejemplo: OpenAI directo
export COPILOT_PROVIDER_BASE_URL=https://api.openai.com/v1
export COPILOT_PROVIDER_API_KEY=sk-your-key
export COPILOT_MODEL=gpt-4o

# Ejemplo: Mistral via su API
export COPILOT_PROVIDER_BASE_URL=https://api.mistral.ai
export COPILOT_MODEL=mistral-medium-latest
export COPILOT_PROVIDER_API_KEY=your-mistral-key

# Ejemplo: un fine-tune auto-hosteado
export COPILOT_PROVIDER_BASE_URL=https://your-internal-endpoint
export COPILOT_MODEL=your-model-name
export COPILOT_PROVIDER_API_KEY=your-key-here

Para configuraciones locales o auto-hosteadas compatibles, BYOK puede habilitar flujos de trabajo en Copilot CLI sin llamadas externas a modelos. Si estás trabajando en un entorno aislado o simplemente offline, eso es útil de una forma que las herramientas solo-en-la-nube no pueden replicar.

Siempre verifica los IDs de modelo específicos de cada proveedor en la documentación actual. Los identificadores exactos varían por proveedor y registro.