Tu factura de IA está por cambiar. Qué hacer al respecto.

GitHub Copilot cambia a facturación por uso el 1 de junio. Si has estado ejecutando flujos de trabajo agentic con un plan mensual fijo, tu próxima factura se verá diferente. Una sesión profunda de depuración ahora puede comerse la mayor parte de tu asignación mensual.

Tienes control real aquí. Entender qué impulsa los costos, y dónde puedes recortar sin renunciar a nada, es todo el juego.

Por qué pagas lo que pagas

Los completados básicos en línea y las sugerencias de Next Edit, las sugerencias rápidas que aparecen mientras escribes, siguen siendo ilimitados en todos los planes pagos. GitHub los mantuvo explícitamente fuera del sistema de créditos. Si principalmente quieres sugerencias rápidas mientras escribes, el 1 de junio apenas te afecta.

Lo que quema créditos es todo lo demás: modelos premium, flujos de trabajo agentic multi-paso, chat con contexto de archivos y completados avanzados. Si estás ejecutando agentes, importa.

Los GitHub AI Credits están denominados en dólares. Cada plan pago incluye una asignación mensual igual al precio de la suscripción:

Copilot Pro: $10/mes en AI Credits
Copilot Pro+: $39/mes en AI Credits
Copilot Business: $19/usuario/mes en AI Credits
Copilot Enterprise: $39/usuario/mes en AI Credits

Business y Enterprise reciben un impulso temporal de junio a agosto ($30 y $70 por usuario respectivamente) para suavizar la transición.

Cada solicitud agentic cuenta tres tipos de tokens:

Tokens de entrada: todo lo que envías, incluido el prompt del sistema, historial de conversación, definiciones de herramientas y contenido de archivos
Tokens de salida: lo que el modelo genera de vuelta
Tokens en caché: contexto que el modelo reutiliza de una llamada anterior

Los tokens de salida son los más caros, alrededor de 5x la tarifa de entrada en modelos de Anthropic. Los tokens de entrada son más baratos pero se acumulan rápido en un bucle de agente multi-turno. Los tokens en caché cuestan aproximadamente 10 veces menos que la entrada fresca en modelos de Anthropic, y 50% menos en modelos de OpenAI.

Ese último es donde la mayoría deja dinero sobre la mesa.

Un cambio de comportamiento que vale la pena conocer

Bajo el sistema anterior, cuando agotabas tu cuota caías silenciosamente a un modelo más barato y seguías trabajando. Eso se acabó. Cuando se acaben tus AI Credits, te detienes o compras más. Sin degradación silenciosa.

Para los administradores de Business y Enterprise, ahora tienes controles de presupuesto a nivel de empresa, centro de costos y usuario. Los créditos se agrupan en toda la organización para que ningún asiento individual deje varada capacidad sin usar. Configura esos límites antes del 1 de junio, no después.

Una más: Copilot code review consumirá minutos de GitHub Actions además de AI Credits. Si has automatizado la revisión fuertemente, también factura eso en tu presupuesto de Actions.

Y si estás en un plan anual Pro o Pro+: te quedas en precios PRU hasta que expire tu plan, pero los multiplicadores de modelo suben el 1 de junio para suscriptores anuales. Puedes convertir a mensual antes y obtener créditos prorrateados si quieres cambiar ahora.

Caché de prompts

Si tu agente envía el mismo prompt del sistema, catálogo de herramientas o contenido de archivos en cada turno, y lo hace, estás pagando el precio completo de entrada por tokens que el modelo ya procesó hace 30 segundos.

El caché de prompts almacena ese prefijo para que las solicitudes posteriores lo reutilicen a aproximadamente el 10% del costo base de entrada. Así es como se ve con el SDK de Anthropic:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "Eres un asistente de código útil. Tienes acceso a las siguientes herramientas...",
            "cache_control": {"type": "ephemeral"}  # Cachea este prefijo
        }
    ],
    messages=[
        {"role": "user", "content": "Refactoriza el módulo de autenticación para usar async/await"}
    ]
)

# Verifica tu tasa de aciertos de caché
print(response.usage.cache_read_input_tokens)    # tokens servidos desde caché
print(response.usage.cache_creation_input_tokens) # tokens escritos en caché

En una sesión de agente de 50 turnos con un prompt del sistema de 8,000 tokens, el caché reduce tu costo de prefijo por turno de ~$0.024 a ~$0.0024 en Claude Sonnet ($3/MTok entrada). Los tokens en caché cuestan 10 veces menos que la entrada fresca, lo que para sesiones de agente largas hace que el caché sea efectivamente no opcional. VS Code ya maneja esto automáticamente para Copilot. Coloca puntos de ruptura de caché al final del prompt del sistema, definiciones de herramientas y límites de turno. Si estás construyendo tus propios agentes, necesitas cablearlo tú mismo.

Mantén tu contexto esbelto

El caché ayuda, pero vigila qué estás poniendo en tus prompts en primer lugar.

Las mayores fuentes de desperdicio: prompts del sistema que incluyen todo, historial completo de conversación en cada llamada y definiciones de herramientas para herramientas que el modelo no usará.

Inflación del prompt del sistema. Un prompt del sistema de 500 tokens repetido en 10,000 solicitudes son 5 millones de tokens. Una versión de 200 tokens ahorra 3 millones. Recorta instrucciones que son redundantes o nunca se activan realmente. El cambio individual de mayor ROI que puedes hacer en Copilot es agregar Code only, no explanation. a tu .github/copilot-instructions.md. En mis pruebas, esa única línea recorta los tokens de salida un 40-70% en tareas de código. Agrega Bullets over paragraphs. No explanations unless asked. y veo otra reducción del 30-60% en general. Pruébalo con tus propias cargas de trabajo antes de estandarizarlo.

Historial de conversación. La mayoría de los agentes añaden cada mensaje anterior a cada nueva llamada. Si estás en el turno 30, los turnos 1 a 20 probablemente son ruido. Recorta a los últimos N turnos o resume el contexto más antiguo en un bloque compacto.

Definiciones de herramientas. VS Code 1.118 (notas de la versión) maneja esto dividiendo el conjunto de herramientas del agente en un núcleo compacto siempre disponible de ~30 herramientas que cubre ~88% de las llamadas a herramientas, con un conjunto diferido más grande que solo se carga cuando es explícitamente necesario. Aplica el mismo patrón a tus propios agentes.

Servidores MCP. Cada herramienta MCP que tienes conectada agrega sobrecarga al prompt. En mis propias configuraciones, alrededor de 100-500 tokens por paso de agente solo para describir cada herramienta. Con 15 servidores a lo largo de una tarea de 15 pasos, son aproximadamente 265,000 tokens de sobrecarga antes de que el modelo haga algo útil. Audita lo que está realmente conectado y desactiva lo que no estés usando activamente.

Las configuraciones multi-agente compuestan todo esto. En mis experimentos pueden consumir 4-15x más tokens que las llamadas individuales cuando no están optimizadas. Si estás paralelizando trabajo, asegúrate de que las tareas sean genuinamente independientes y no estés simplemente duplicando contexto en todas partes.

Modo Ask vs Modo Agent

No todas las tareas de Copilot necesitan Modo Agent. Modo Ask es para búsquedas, explicaciones y preguntas rápidas. Modo Agent es para trabajo multi-paso donde el modelo necesita leer archivos, ejecutar comandos e iterar.

Usar Modo Agent por defecto para todo es como activar un bucle agentic completo para responder “qué hace esta función”. En mis pruebas, usar Modo Ask para preguntas simples ahorra 60-90% en esas interacciones. Reserva Modo Agent para tareas que realmente lo necesitan.

Elige el modelo correcto para el trabajo

No todas las tareas necesitan Claude Opus. La brecha de costo entre Haiku y Opus es 5x en ambos sentidos. La mayoría de tus tareas no necesitan Opus.

Modelo	Entrada (por 1M tokens)	Salida (por 1M tokens)
Haiku 4.5	$1.00	$5.00
Sonnet 4.6	$3.00	$15.00
Opus 4.7	$5.00	$25.00

Haiku es rápido y barato. Bueno para resumen, clasificación y Q&A simple. Sonnet maneja la mayoría de las tareas de código, refactorización multi-archivo y análisis sin romper el banco. Opus es para problemas genuinamente difíciles: decisiones de arquitectura complejas, depuración difícil y razonamiento de contexto largo que realmente lo necesita.

Opus 4.7 viene con un nuevo tokenizador que puede producir hasta 35% más tokens para el mismo texto de entrada. La tarifa no cambió, pero tu factura real por solicitud aún puede subir. Anthropic lo documenta en su página de precios. Haz benchmarks de tus cargas de trabajo con tráfico real antes de asumir que los costos son idénticos a los de 4.6.

def route_to_model(complexity: str) -> str:
    if complexity == "simple":
        return "claude-haiku-4-5"   # $1/MTok entrada
    elif complexity == "medium":
        return "claude-sonnet-4-6"  # $3/MTok entrada
    else:
        return "claude-opus-4-7"    # $5/MTok entrada

Envía tareas simples a modelos más baratos y escala solo cuando necesites la potencia.

Modelos locales

No tienes que enviar todo a una API en la nube.

GitHub Copilot soporta Ollama directamente, tanto en VS Code como en Copilot CLI. Modelos como Qwen, DeepSeek y Llama corren localmente y aparecen en el mismo selector de modelos que los modelos en la nube. Sin créditos. Sin telemetría. Tu código se queda en tu máquina.

Configurarlo en Copilot CLI es un solo comando:

ollama launch copilot

Ollama conecta Copilot CLI a un modelo local y te deja en el agente. Para elegir un modelo específico:

ollama launch copilot --model qwen3.5

Para VS Code, agrega la URL de tu instancia local de Ollama en la configuración de Language Models. VS Code descubre automáticamente cada modelo instalado y lo agrega al selector. Correr IA localmente no se trata solo de ahorrar dinero. Para código propietario, entornos regulados o redes air-gapped, es la única opción.

Aviso justo: las máquinas solo CPU tienen problemas con la ejecución multi-paso de herramientas. LM Studio tiende a funcionar mejor que Ollama en hardware CPU porque obtienes visibilidad real de lo que está pasando. Para la elección de modelo, Qwen3.5 Coder 7B es el mejor compromiso de velocidad-a-calidad en hardware de consumo. Qwen 2.5 Coder 32B es más fuerte para comandos multi-paso si tienes la VRAM.

Una cosa que confunde a la gente: Ollama por defecto usa contexto de 4K incluso para modelos que soportan mucho más. Para cualquier uso agentic, configura la longitud del contexto vía variable de entorno antes de iniciar el servidor:

export OLLAMA_CONTEXT_LENGTH=32768
ollama serve

O configúralo por sesión dentro del REPL interactivo:

/set parameter num_ctx 32768

32K a 64K es el punto dulce práctico para la mayoría de los flujos de trabajo de código.

Lo que realmente cuesta una sesión

Los completados básicos son gratis sin importar cuántos uses. La parte cara es el razonamiento complejo en un modelo premium. Corre Opus durante un tramo de razonamiento de 10 turnos y estás viendo ~$6.75 de tu asignación Pro de $10 de un tirón. Cambia ese mismo tramo a Sonnet y la sesión entera cuesta menos de $1.50.

Esa es la palanca. La mayoría de las tareas no necesitan Opus. Las que sí, valen la pena. Todo lo demás debería estar en Sonnet o Haiku.

Qué hacer antes del 1 de junio

Revisa tu factura preliminar primero. GitHub está poniendo facturas preliminares disponibles a principios de mayo en la página de Resumen de Facturación en github.com. Se actualiza mientras usas Copilot, así que verás exactamente cuánto estás gastando antes de que el cambio entre en vigor.

Agrega controles de salida a copilot-instructions.md. Empieza con Code only, no explanation. Es el cambio individual de mayor ROI que puedes hacer.
Habilita el caché de prompts en cualquier agente que hayas construido. Agrega cache_control a tu bloque de prompt del sistema en el SDK de Anthropic. Verifica cache_read_input_tokens en la respuesta para confirmar que está funcionando.
Audita tus servidores MCP. Desconecta lo que no estés usando activamente. Cada servidor inactivo cuesta tokens en cada paso del agente.
Recorta el historial de conversación. Mantén los últimos 5-10 turnos en contexto, no la sesión completa.
Usa Modo Ask para preguntas simples. Reserva Modo Agent para tareas que realmente necesitan ejecución multi-paso.
Descarga un modelo local. Aunque no lo uses diariamente, tener qwen3.5 corriendo localmente te da una opción de costo cero para cualquier cosa que no quieras enviar a una API en la nube.
Enruta por complejidad. Deja de usar tu modelo más potente por defecto para todo. Reserva Opus para los problemas que realmente lo necesitan.
Administradores: configuren controles de presupuesto ahora. Business y Enterprise tienen límites a nivel de centro de costos y usuario. Configúrenlos antes del 1 de junio, no después de su primera factura sorpresa.

Eso es todo. Ve a revisar tu factura preliminar.