El benchmark de IA más raro que en realidad funciona

¿El benchmark de IA más inútil del mundo? En realidad te dice más de lo que crees

Si alguien te dijera que el mejor indicador para evaluar un modelo de IA es pedirle que dibuje a un actor de Hollywood usando solo código, probablemente lo descartarías como una broma. Y en parte lo es. Pero resulta que detrás del chiste hay una lección genuinamente útil sobre cómo evaluar modelos de inteligencia artificial para casos de uso reales.

El creador de contenido Matt Wolfe construyó algo llamado Busey Bench: un benchmark donde la única tarea es dibujar al actor Gary Busey usando SVG. Sin Midjourney, sin Stable Diffusion, sin generadores de imágenes. Solo el modelo de lenguaje escribiendo código — coordenadas, formas, líneas — que al renderizarse deberían formar una cara humana reconocible. Los resultados van desde lo impresionante hasta lo perturbador, y eso es exactamente el punto.

En este artículo te explico por qué este benchmark "ridículo" enseña algo que los rankings oficiales no pueden: que la evaluación de un modelo depende completamente de la tarea que le vayas a pedir.

Por qué dibujar con código es un test de razonamiento real

Los SVG (Scalable Vector Graphics) son archivos de imagen definidos por código. En lugar de píxeles, usas instrucciones como "dibuja un círculo en la coordenada X, Y con radio R" o "traza una curva de este punto a este otro". Para un humano que no sabe diseño vectorial, es un ejercicio difícil. Para un modelo de IA, es un reto que expone algo muy específico: su capacidad de razonar en espacios abstractos sin atajos visuales.

Cuando le pides a un modelo que genere una imagen con herramientas especializadas, el modelo actúa como intermediario — describe lo que quiere y la herramienta lo produce. Pero cuando el modelo tiene que escribir el código que es la imagen, no hay intermediario. Tienes que entender proporciones, geometría, relaciones espaciales y traducirlas a instrucciones precisas. Es una prueba de razonamiento estructurado disfrazada de absurdo.

El experimento registró la evolución desde GPT-3.5 Turbo en marzo de 2023 — cuya versión de Gary Busey era, digamos, interpretativa — hasta los modelos actuales. Algunos mejoran notablemente con el tiempo. Otros eligen el caos como estrategia artística. Y esa variabilidad es información real sobre cómo cada modelo maneja tareas de razonamiento espacial y generación de código estructurado.

Lo que los rankings oficiales no te dicen

Los benchmarks más conocidos en IA — MMLU, HumanEval, MATH, entre otros — miden capacidades generales: comprensión lectora, razonamiento matemático, generación de código en lenguajes populares. Son útiles para tener una foto panorámica de un modelo. Pero tienen un problema fundamental: no miden tu caso de uso.

Busey Bench incluye además métricas prácticas por cada modelo evaluado: costo por ejecución, tokens utilizados y tiempo de respuesta. Eso convierte el experimento en algo más que una broma — es una tabla comparativa real con datos accionables. Puedes filtrar por proveedor y ver la evolución de cada uno a lo largo del tiempo en una página de línea de tiempo dedicada.

La lección de fondo es esta: el modelo que lidera los rankings generales puede ser mediocre para tu tarea específica, y un modelo que nadie menciona puede ser exactamente lo que necesitas. Los rankings te dan un punto de partida, no una respuesta definitiva.

Cómo aplica esto en empresas de Perú y Latinoamérica

En los proyectos de implementación de IA que trabajamos con empresas en la región, uno de los errores más comunes es elegir el modelo "ganador" según los rankings del momento y asumir que funcionará bien para todo. La realidad es más matizada.

Una empresa que usa IA para clasificar documentos legales en español peruano tiene necesidades completamente distintas a una que genera descripciones de productos para e-commerce o una que automatiza respuestas de soporte técnico. El modelo que mejor puntúa en inglés puede tener un rendimiento mediocre en español regional. El modelo más barato puede ser suficiente para tareas simples y liberar presupuesto para tareas complejas.

Lo que Busey Bench demuestra — aunque lo haga con humor — es que el mejor benchmark es el que replica tu tarea real. Antes de comprometerte con un modelo o una plataforma, vale la pena construir tu propio mini-benchmark: un conjunto de 20 o 30 casos de prueba representativos de lo que el modelo va a hacer en producción, y medir costo, velocidad y calidad de respuesta en cada uno.

¿Cómo aplica esto en tu empresa?

Si estás evaluando incorporar IA a algún proceso de tu empresa — automatización de documentos, asistentes de atención al cliente, generación de contenido, análisis de datos — te recomiendo este enfoque práctico antes de tomar una decisión:

Define tu tarea real con precisión. No "usar IA para atención al cliente" sino "responder preguntas sobre estado de pedidos en español, en menos de 3 segundos, con información extraída de nuestro ERP".
Construye un set de prueba propio. Recopila 20-30 casos reales que el modelo tendría que resolver. Incluye casos fáciles, difíciles y edge cases.
Mide las tres variables que importan. Calidad de respuesta, costo por consulta y tiempo de respuesta. Los tres juntos determinan si un modelo es viable en producción.
Compara al menos 3 modelos. Con los precios actuales, hacer un benchmark propio con 30 casos en 3 modelos distintos cuesta menos de 5 dólares. No hay excusa para no hacerlo.
Revisa periódicamente. Los modelos evolucionan rápido. Lo que era el mejor hace seis meses puede no serlo hoy, y viceversa.

Este proceso no requiere un equipo técnico grande. Requiere claridad sobre lo que necesitas y disciplina para medirlo antes de comprometerte con una solución.

Conclusión

Busey Bench es, por diseño, absurdo. Pero la idea detrás es completamente seria: los benchmarks genéricos te dan contexto, no respuestas. La única forma de saber si un modelo de IA sirve para tu negocio es probarlo con tus datos, tu idioma y tus tareas reales.

La próxima vez que alguien te recomiende un modelo "porque ganó en el benchmark", pregunta: ¿ganó en qué tarea exactamente? La respuesta a esa pregunta vale más que cualquier ranking.

En Consultoría-Ti ayudamos a empresas en Perú y Latinoamérica a evaluar, seleccionar e implementar soluciones de inteligencia artificial adaptadas a sus procesos reales — no a los rankings del momento. Si estás considerando incorporar IA a tu operación y quieres hacerlo con criterio técnico y visión de negocio, conversemos aquí.

Fuentes y Referencias

Matt Wolfe — The ONLY AI Benchmark You Need! (YouTube)

✨ Contenido generado con ContentFlow — Consultoría-Ti

en Inteligencia Artificial

Nuestros blogs

Fable 5 regresó: qué cambió y cómo afecta tu equipo