Fine-tuning vs prompts: cuándo los prompts no son suficientes

El prompt perfecto no existe: por qué el fine-tuning gana cuando los prompts fallan

Hay un error que casi todos los desarrolladores cometen al menos una vez: creer que si el modelo no hace lo que quieren, la solución es escribir un prompt más largo. Más instrucciones, más ejemplos inline, más advertencias. Y a veces funciona... hasta que no funciona.

Google for Developers publicó recientemente un video corto que va directo al punto: cuando tu sistema necesita outputs consistentes y estructurados, los prompts solos no son suficientes. Y la alternativa no es más texto — es fine-tuning con destilación de datos.

En este artículo vamos a desglosar qué significa eso, cuándo aplicarlo y cómo puede cambiar la forma en que construyes pipelines de IA en tu empresa.

El problema real: los prompts son frágiles en producción

Imagina este escenario: tu aplicación espera que el modelo devuelva un objeto JSON con campos específicos. El prompt dice claramente "devuelve solo JSON válido, sin comentarios, sin markdown". En pruebas funciona. En producción, el modelo responde: "¡Claro! Aquí está el JSON que pediste:" seguido del objeto. Tu parser falla. Tu pipeline se rompe.

Este no es un bug del modelo. Es una característica de cómo funcionan los prompts: son instrucciones en tiempo de ejecución, y los modelos de lenguaje no están entrenados para seguirlas con precisión quirúrgica en todos los contextos. Son probabilísticos por naturaleza. Algunos días dan exactamente lo que pediste. Otros días, improvisan.

La tentación es agregar más instrucciones al prompt. Pero eso solo mueve el problema — no lo resuelve. Hay un límite a lo que puedes controlar desde el texto.

La solución: dataset distillation + fine-tuning

La técnica que propone Google se llama destilación de datasets, y funciona así: en lugar de intentar que el modelo aprenda el comportamiento en tiempo real mediante instrucciones, le enseñas el patrón directamente a través de ejemplos de entrenamiento.

El proceso tiene tres pasos claros. Primero, usas un modelo grande y capaz — un modelo frontier como GPT-4o o Gemini Ultra — para generar cientos o miles de ejemplos perfectos de entrada y salida. Por ejemplo: dado este texto de factura, devuelve exactamente este JSON con estos campos y estos valores permitidos. Segundo, limpias y validas ese dataset para asegurarte de que todos los ejemplos son correctos. Tercero, usas ese dataset para hacer fine-tuning sobre un modelo más pequeño y rápido.

El resultado es un modelo que no necesita que le recuerdes las reglas cada vez. Ya las aprendió. El comportamiento correcto está incorporado en sus pesos, no flotando en un string de texto que puede malinterpretar.

La diferencia conceptual es importante: el prompting le dice al modelo qué hacer. El fine-tuning le enseña un patrón que puede repetir. Para sistemas de producción donde la consistencia no es opcional, esa distinción lo cambia todo.

¿Cómo aplica esto en empresas de Perú y Latinoamérica?

Esta técnica es especialmente relevante para empresas que están integrando IA en sus procesos internos y necesitan que los outputs sean predecibles. No es un concepto académico — tiene aplicaciones directas en contextos de negocio reales.

Algunos casos donde el fine-tuning con destilación de datos tiene sentido inmediato:

Extracción de datos de documentos: facturas, contratos, órdenes de compra donde el modelo debe devolver siempre el mismo esquema JSON para alimentar un ERP como Odoo.
Clasificación de tickets de soporte: categorizar automáticamente incidencias con etiquetas fijas sin que el modelo invente categorías nuevas.
Generación de reportes estructurados: resúmenes de reuniones o informes que siempre deben seguir el mismo formato para integrarse a herramientas de gestión.
Validación de formularios con lenguaje natural: interpretar respuestas de usuarios y mapearlas a campos específicos de una base de datos.

Para empresas que trabajan con modelos open-weight (como LLaMA, Mistral o Qwen) desplegados en su propia infraestructura, el fine-tuning es incluso más accesible porque tienen control total sobre el modelo base.

¿Cómo aplica esto en tu empresa?

Antes de decidir si el fine-tuning es el camino correcto para tu caso, hazte estas preguntas concretas:

¿Tu pipeline falla con frecuencia porque el modelo no devuelve el formato exacto que esperas?
¿Estás gastando tiempo de desarrollo parcheando outputs del modelo en lugar de usarlos directamente?
¿Tienes o puedes generar al menos 500-1000 ejemplos de buena calidad de entrada-salida?
¿Usas un modelo open-weight que puedas ajustar, o tienes acceso a la API de fine-tuning del proveedor?

Si respondiste sí a la mayoría, el fine-tuning con destilación de datos probablemente te ahorrará más tiempo del que inviertes en configurarlo. El costo inicial de preparar el dataset se recupera rápido cuando eliminas los errores de parseo en producción.

Si aún estás en etapas tempranas de exploración, los prompts bien diseñados siguen siendo el punto de partida correcto. Pero ten claro desde el inicio que no son una solución permanente para sistemas críticos.

Conclusión

Los prompts son una herramienta poderosa para explorar y para casos donde la variabilidad es aceptable. Pero cuando construyes un sistema de producción que depende de outputs estructurados y consistentes, necesitas algo más robusto. La destilación de datasets y el fine-tuning no son conceptos solo para grandes laboratorios de IA — son técnicas accesibles que cualquier equipo de desarrollo puede aplicar hoy.

En Consultoría-Ti trabajamos con empresas en Perú y Latinoamérica que están integrando IA en sus procesos reales. Si estás evaluando cómo hacer que tus pipelines de IA sean más confiables, o si quieres explorar fine-tuning para un caso de uso específico, conversemos. Podemos ayudarte a definir el enfoque correcto desde el inicio.

Escríbenos y hablemos de tu proyecto →

Fuentes y Referencias

Google for Developers — Stop writing longer prompts. Do this instead!

✨ Contenido generado con ContentFlow — Consultoría-Ti

en Inteligencia Artificial

Nuestros blogs

Cómo Omio redujo 9 meses de trabajo a 1 con IA