Cómo “maquillan” los benchmarks de inteligencia artificial y por qué no debes creerlas tan rápido

Cómo “maquillan” los benchmarks de inteligencia artificial y por qué no debes creerlas tan rápido

En redes sociales es cada vez más común ver gráficas que comparan modelos de inteligencia artificial como si fueran una competencia deportiva. Una barra parece más alta, otra más baja, y la conclusión automática es que un modelo es “superior”. Pero estos gráficos, que circulan como evidencia objetiva, suelen esconder trucos que distorsionan la percepción. No porque los números sean falsos, sino porque la manera en que se presentan está diseñada para sugerir diferencias que, en realidad, pueden ser mínimas o irrelevantes.

Uno de los trucos más comunes es el recorte selectivo de escalas. En lugar de mostrar una gráfica de 0 a 100, algunos benchmarks recortan la visualización a un rango mucho más estrecho —por ejemplo, de 80 a 85—. Esto convierte diferencias de dos puntos en un salto visual enorme. La audiencia percibe un abismo entre modelos que, en términos estadísticos, están prácticamente empatados. Es un recurso estético que exagera contrastes sin modificar los datos, y sin revelar que se trata simplemente de narrativa visual.

Otro problema frecuente es la omisión de márgenes de error. Los modelos de IA no son deterministas: su rendimiento fluctúa. Un mismo modelo puede obtener 83 puntos en una corrida y 85 en otra; otro puede variar entre 82 y 86. Sin intervalos de confianza, sin desviaciones estándar, sin reporte de cuántas pruebas se hicieron o cuántas se descartaron, dos modelos pueden parecer categóricamente distintos cuando en realidad sus resultados se solapan. Un modelo con 83 ± 2 no es inferior a uno con 84 ± 3: están dentro del mismo rango. Pero si solo se reporta la cifra central, el público interpreta esa diferencia mínima como “competencia”.

La situación se complica todavía más cuando los benchmarks incluyen evaluaciones humanas. Muchas pruebas dependen de jueces que califican coherencia, claridad, estilo, preferencia o calidad narrativa. Pero las tablas finales rara vez revelan quién evaluó: si fueron hablantes nativos, si tenían formación técnica, si provenían de culturas distintas, o si estaban comparando respuestas en inglés académico, en inglés coloquial, en español neutro o en alguna variante regional. Todos esos factores afectan el resultado, pero desaparecen en la visualización. Lo que el público ve como una medida universal es, en realidad, una mezcla de percepciones condicionadas por culturas, idiomas y expectativas diversas.

Otro recurso frecuente es comparar versiones internas de un modelo con versiones públicas de sus competidores. No es raro encontrar un gráfico en el que un modelo “A” vence ampliamente a un modelo “B”, sin que se aclare que “A” es una versión experimental —aún no disponible para el público— mientras “B” es la versión estable que usan millones de personas. Es el equivalente a comparar el prototipo de un auto con un vehículo comercial. Impresionante en un laboratorio, pero irrelevante para el usuario final.

También hay que señalar otro punto ciego: muchos de los benchmarks más populares, como MMLU, GSM8k o ARC, son útiles para investigación, pero no representan el uso real que la mayoría de las personas da a un modelo. Escribir, traducir, dialogar, programar, resolver problemas prácticos o generar contenido no se parecen en nada a responder exámenes de opción múltiple. Un modelo puede obtener una puntuación altísima en MMLU y, aun así, resultar torpe en conversación; otro puede tener un rendimiento académico mediocre y brillar en tareas cotidianas. Pero como la audiencia solo ve la puntuación del benchmark, la percepción queda sesgada hacia un tipo de capacidad que no refleja la experiencia real.

Esto ocurre porque los benchmarks no son neutrales. Son, inevitablemente, herramientas narrativas de la industria tecnológica. Las empresas seleccionan qué pruebas mostrar, cuáles omitir, cómo ordenar los resultados, bajo qué nombres presentar las categorías y con qué colores reforzar la jerarquía que desean comunicar. El objetivo puede ser legítimo —posicionar un avance técnico, demostrar liderazgo, defender terreno— pero la consecuencia es que la objetividad se diluye sin que nadie tenga que mentir explícitamente. Basta elegir qué contar y qué dejar fuera.

Casos de ejemplo

Un ejemplo reciente proviene del estudio «Cryptobench: Un referente dinámico para la evaluación de agentes LLM en criptomonedas a nivel experto», un benchmark académico desarrollado por investigadores de Princeton, Berkeley y de laboratorios como Pyra.io. A primera vista suena impecable: un análisis serio, universitario, que evalúa la capacidad de modelos para operar como agentes autónomos en tareas de criptomonedas. Pero al observar la gráfica principal, la comparación se desdibuja. En la misma tabla aparecen modelos “puros”, modelos conectados a agentes externos y modelos con acceso a internet durante el examen. Es como comparar a un estudiante que hace una prueba de memoria con otro que usa calculadora y un tercero que tiene Google abierto. El resultado puede ser técnicamente correcto, pero la gráfica lo presenta como si todos estuvieran compitiendo bajo las mismas reglas.

Foto: Cryptobench: Un referente dinámico para la evaluación de agentes LLM en criptomonedas a nivel experto. 

Otro caso llamativo viene de dashboards corporativos que han popularizado un indicador llamado “Artificial Analysis Intelligence Index”. Es un índice compuesto creado por una empresa para simplificar múltiples resultados en un solo número de 0 a 100. Esto permite producir gráficas elegantes, fáciles de leer y perfectas para marketing. Pero, como todo índice de cosecha propia, refleja las decisiones de quien lo construye: qué pruebas se incluyen, cuáles se excluyen, cuánto vale cada una y cómo se combinan. En otras palabras, no mide “inteligencia”, sino una interpretación editorial de ella.

Foto: Artificial Analysis Intelligence Index

Para equilibrar, vale mencionar un análisis reciente de Epoch AI. Ellos compararon las puntuaciones de GPQA Diamond, el benchmark más exigente de razonamiento científico, reportadas por las empresas con sus propias evaluaciones independientes. Sorprendentemente, encontraron que las cifras de OpenAI, Google, Anthropic, Meta y xAI coinciden dentro del intervalo estadístico esperado. Es decir, cuando se trata de benchmarks estrictos, los desarrolladores no están mintiendo. Los números suelen ser correctos. Lo que cambia no es el dato bruto, sino la forma en que se interpreta o se acomoda dentro de una gráfica.

Aquí aparece el corazón del problema: las gráficas de IA no solo informan, también persuaden. Mezclan categorías que no deberían compararse, exageran diferencias pequeñas, introducen índices sin explicación y se apoyan en decisiones visuales que guían la percepción del lector. El resultado es una ilusión de claridad. Al ver una barra más alta que otra, el público concluye que un modelo es “mejor”, cuando en realidad la comparación está filtrada por interpretaciones invisibles.

Por eso es importante aprender a leer estos gráficos con cierto escepticismo. Preguntar si todos los modelos compitieron con las mismas reglas, si la gráfica usa una escala completa o recortada, si la métrica es reconocida por la comunidad académica o inventada por una empresa, o si se está comparando un modelo puro con un sistema que integra herramientas externas. Un número puede ser cierto y aun así contar una historia equivocada.