Un Experimento con la Voz — Fine-tuning de Qwen3 8B con Unsloth

Un Experimento con la Voz: Qué Pasa Cuando la IA Aprende a Escribir Como Tú

Fine-tuning de Qwen3 8B con Unsloth, y lo que me enseñó sobre lo que realmente es la voz.

Hola mi gente linda 👋

Hice fine-tuning de un modelo de lenguaje con tres años de mi propia escritura. No porque quisiera un clon escribiendo newsletters mientras dormía. No porque pensara que el mundo necesitaba más contenido con mi nombre. Lo hice porque me dio curiosidad algo específico: ¿qué pasa realmente cuando le enseñas a un sistema de IA a sonar como una persona real?

La mayoría del fine-tuning funciona así: agarras un modelo general, lo apuntas a un dominio específico. Marketing, soporte, documentación técnica. El modelo aprende los patrones de ese dominio y se vuelve mejor sonando como si perteneciera ahí. Pero no captura perspectiva. No aprende las decisiones reales que un humano toma cuando decide cómo explicar algo.

Yo quise intentar algo diferente. Tomé Qwen3 8B y lo entrené con tres años de cómo realmente le hablo a la gente sobre cosas técnicas. No la versión pulida que sale en The GitHub Blog. Lo real. Cómo le haría onboarding a alguien nuevo en el equipo. Cuando decido empezar con “esto existe por esta razón” en vez de saltar directo a “así se usa.” El momento donde paso de hablar de teoría a hablar de lo que realmente funciona. El tono que hace que alguien sienta que entiendes lo que es ser nuevo en esto y no sentirse estúpido.

Newsletters. Charlas en conferencias. Conversaciones con developers aprendiendo GitHub por primera vez. Issues donde tuve que explicar algo de cinco formas diferentes hasta que por fin hizo clic. Los momentos sin glamour donde la comunicación realmente pasa.

Cómo Unsloth hizo esto posible

Lo que hizo este experimento factible: Unsloth.

Hacer fine-tuning de un modelo de lenguaje normalmente requiere hardware serio. Hablamos de clusters de GPUs, miles de dólares, infraestructura que la mayoría de la gente no tiene. Unsloth es una librería que optimiza el proceso de fine-tuning tan agresivamente que puedes entrenar en una GPU T4 gratis en Colab. Dieciséis gigas de VRAM. Eso es todo.

Empecé con Llama 3.1 8B pero me cambié a Qwen3 8B. El modelo base importa más que cualquier cosa que hagas después. Qwen3 es más nuevo, entrenado con más datos, y su instruction-following es significativamente mejor out of the box. Misma cantidad de parámetros, mejor fundación. Ese cambio solo mejoró el output más que cualquier ajuste de hiperparámetros que intenté.

Unsloth funciona a través de algo llamado LoRA, que significa Low-Rank Adaptation. En vez de reentrenar todos los pesos del modelo (que es caro y lento), LoRA agrega pequeñas matrices adaptadoras a capas específicas. El modelo base se queda congelado. Solo entrenas los adaptadores. Piénsalo como ajustar los instrumentos de una orquesta en vez de reemplazar a los músicos. La orquesta sigue tocando las mismas notas. Solo estás afinando cómo suena.

Puse el LoRA rank en 16. Ese número controla cuánta capacidad tienen esos adaptadores. Rank más alto significa más flexibilidad, más VRAM, más tiempo de entrenamiento. Rank más bajo significa restricciones más estrictas pero convergencia más rápida. Rank 16 fue el punto ideal para ochenta y un ejemplos de mi voz. También puse LoRA alpha en 32 (el doble del rank) para que las actualizaciones del adaptador escalen correctamente durante el entrenamiento.

Los módulos target fueron las capas de atención: q_proj, k_proj, v_proj, o_proj, más las capas feed-forward (gate_proj, up_proj, down_proj). Esas son las partes del modelo que controlan cómo procesa y genera lenguaje. Ahí es donde vive la voz.

El entrenamiento fueron sesenta steps con batch size de 2 y gradient accumulation en 4 batches. Learning rate en 1e-4, que es conservador para un dataset pequeño. Un learning rate más alto se pasaría con ochenta y un ejemplos y corrompería el conocimiento general del modelo. Más bajo y estarías entrenando para siempre.

Los datos pasaron por el template ChatML, que es el formato de Qwen: system prompt, mensaje de usuario, respuesta del asistente. Cada ejemplo fue formateado correctamente para que el modelo aprenda no solo qué escribir sino cómo responder a una estructura de prompt específica.

La exportación fue cuantizada a q4_k_m. Eso es cuantización de 4-bit con clustering K-means. El modelo se comprime de precisión completa (floats de 32-bit) a enteros de 4-bit sin mucha pérdida de calidad. Tamaño final: unos 5GB. Portable. Corre en una MacBook Pro con 16GB de RAM. Local. Sin llamadas a APIs. Sin preocupaciones de privacidad.

Sin Unsloth, este experimento no pasa. Necesitarías un presupuesto de laboratorio o meses esperando infraestructura en la nube. En cambio, lo hice en un notebook gratis de Colab en una tarde y descargué el modelo entrenado para la noche. Costo total: cero dólares y una tarde.

Lo que capturó y lo que no

El modelo aprendió cómo escribo. No cómo pienso.

Cuando le das un problema técnico, refleja mi estructura de oraciones. Divide pensamientos en oraciones separadas en vez de encadenarlos con conectores corporativos. Pregunta qué es lo que realmente estás tratando de hacer antes de saltar a respuestas. Se aleja del lenguaje de marketing como un instinto. Abre con el problema en vez de con el feature.

Esas son decisiones de comunicación. Patrones. Estilo. El modelo se volvió muy bueno capturándolos.

Lo que no capturó es lo que hay debajo y que realmente importa: la capacidad de cambiar de opinión.

Yo estaba muy convencida de ciertos stacks. Los defendía fuerte. Construía argumentos enteros sobre por qué eran la elección correcta. Después cambié de opinión. Lo he hecho con personas también. Equipos que pensé que eran sólidos hasta que dejaron de serlo. Tecnologías de las que estaba segura hasta que vi algo mejor y tuve que admitir que estaba equivocada sobre lo primero.

Esa disposición a estar equivocada no está en los datos de entrenamiento. No puede estarlo. El modelo aprende de lo que ya escribiste. No aprende que podrías escribir algo completamente diferente mañana porque hoy descubriste algo que contradice lo que dijiste ayer.

Esa es la brecha real entre un sistema que aprendió tu voz y una voz que le pertenece a una persona real. Tú puedes cambiar. Puedes contradecirte. Puedes mirar atrás a lo que creías el año pasado y decir “sí, no, estaba equivocada en eso.”

El modelo siempre va a sonar como Andrea 2026. Tú no vas a ser Andrea 2026 para siempre.

Por qué te cuento esto

La mayoría de las empresas están haciendo fine-tuning de IA para que suene profesional. Pulida. On-brand. Segura. Pero hay algo más interesante que puedes hacer: enseñarle a un sistema de IA a comunicarse como se comunica una autoridad técnica real. No a pensar como ella. Solo a sonar como ella.

Si estás construyendo documentación, eso significa IA que coincide con cómo realmente hablas de las cosas, no un tono genérico “profesional” que hace que todo suene corporativo. Si eres developer advocate tratando de escalar tus explicaciones sin perder tu voz real, significa que puedes tener una herramienta que captura cómo realmente hablas de problemas. Si estás tratando de comunicar ideas técnicas a escala sin que todo se convierta en papilla corporativa, enseñar voz es un tipo diferente de leverage.

El modelo no aprendió mi perspectiva. Aprendió mis patrones.

Lo que realmente puedes hacer con esto

Podrías usar esto para escribir más contenido más rápido. Delegar parte del trabajo de explicación. Tener un compañero de comunicación que suena como tú sin requerir que tú suenes como alguien más.

Pero no construí esto para manufacturar contenido. Lo construí para entender qué es realmente la voz. Para probar que puedes enseñarle a un sistema de IA a comunicarse como una persona real. Para crear algo que suena como una autoridad técnica en vez de un algoritmo corporativo.

El resultado es útil si estás tratando de escalar explicación reflexiva. Si necesitas documentación que no suene genérica. Si quieres un compañero que hable de problemas como tú hablas de problemas.

Pero esto es lo que no va a hacer: no va a cambiar de opinión. No va a despertar mañana y darse cuenta de que estaba equivocado sobre un framework, una práctica, una persona. No va a evolucionar porque aprendió algo nuevo. No se va a contradecir porque la evidencia lo demandó.

Eso es lo que vale la pena proteger en ti. La libertad de estar equivocado. El coraje de cambiar de opinión cuando la evidencia aparece. La humildad de saber que lo que hoy es certeza podría ser lo que replanteas completamente el año que viene.

Enseñarle voz a una máquina es útil. Pero tu voz importa porque está conectada a una mente que sigue cambiando.