GPT-5.4 rompe récord en el examen matemático que la IA no podía aprobar

GPT-5.4 rompe récord en el examen matemático que la IA no podía aprobar

El modelo de OpenAI resolvió el 50% de FrontierMath, una prueba diseñada por expertos con problemas que tardan días en resolverse. El resultado obliga a replantear cómo se mide la inteligencia artificial.

En 1950, Alan Turing propuso una idea simple y provocadora: en lugar de preguntarnos si una máquina puede pensar, mejor observemos si puede conversar sin que notemos la diferencia. Setenta y cinco años después, esa pregunta quedó pequeña. Los modelos de inteligencia artificial ya superaron con holgura la charla humana. El problema ahora es otro: ¿cómo seguimos midiendo algo que no deja de crecer?

La respuesta más reciente tiene nombre: FrontierMath. Y esta semana, GPT-5.4 Pro lo quebró. El reciente modelo de OpenAI estableció un nuevo récord en FrontierMath, una de las pruebas más difíciles diseñadas hasta ahora para medir razonamiento matemático en inteligencia artificial. Según Epoch AI, que evaluó el modelo antes de su lanzamiento, obtuvo 50% en los niveles 1 a 3 y 38% en el nivel 4, el tramo más complejo del benchmark. Leído fuera de contexto, el resultado podría parecer modesto. Dentro de FrontierMath, significa otra cosa: que los modelos más avanzados ya están empujando pruebas que fueron diseñadas precisamente para hacerlos fallar.

«GPT-5.4 estableció un nuevo récord en FrontierMath, nuestro referente en problemas matemáticos extremadamente desafiantes. Tuvimos acceso previo al lanzamiento para evaluar el modelo. En los niveles 1 a 3, GPT-5.4 Pro obtuvo una puntuación del 50 %. En el nivel 4, obtuvo una puntuación del 38 %», señaló Epoch AI.

Un examen hecho para no poder aprobarse

FrontierMath no es un test convencional. No tiene preguntas de opción múltiple ni problemas sacados de libros de texto. Fue desarrollado por Epoch AI con cientos de problemas originales, redactados y verificados por matemáticos expertos, que abarcan desde teoría de números computacional hasta geometría algebraica.

Muchos de esos problemas requieren horas o días de trabajo para un especialista humano. Algunos siguen sin resolverse.

La prueba fue construida así a propósito. Después de años en que los grandes modelos de lenguaje empezaron a saturar los benchmarks tradicionales, respondiendo correctamente no porque razonaran, sino porque ya habían visto patrones similares durante el entrenamiento, la comunidad científica necesitaba un examen que no pudiera memorizarse. FrontierMath es ese examen.

Epoch AI mantiene además conjuntos de problemas completamente reservados, nunca expuestos a los modelos antes de la evaluación. Sin atajos. Sin trampas posibles.

El número que sorprendió

Esta semana, Epoch reportó que GPT-5.4 Pro obtuvo 50% en los niveles 1 al 3 de FrontierMath, y 38% en el Tier 4, la zona más extrema del benchmark. Fuera de contexto, suena a un resultado mediocre. Dentro de FrontierMath, es otra cosa.

Hasta hace poco, los modelos más avanzados apenas rozaban el 10% en esta prueba. Llegar a la mitad en un examen diseñado específicamente para resistir a los sistemas más potentes del mundo es, en el lenguaje de la evaluación en IA, un salto inusual.

Epoch fue cuidadoso en su interpretación: al separar resultados entre conjuntos reservados y no reservados, algunas diferencias no alcanzan significancia estadística. Un recordatorio necesario en un campo donde el entusiasmo suele adelantarse a los datos.

Del test de Turing a las matemáticas de frontera

Lo que este resultado revela va más allá de un modelo y una puntuación. Cuenta la historia de cómo ha cambiado la pregunta central de la inteligencia artificial.

Primero quisimos saber si una máquina podía parecer humana en una conversación. Luego, si podía resolver tareas concretas mejor que antes: traducir, programar, responder preguntas. Ahora la pregunta es si puede enfrentarse a problemas genuinamente nuevos, en dominios donde antes solo llegaban especialistas con años de formación.

Las matemáticas son el terreno ideal para esa prueba. No hay retórica que valga. El resultado es correcto o incorrecto. Y cuando los exámenes tienen que acercarse a la frontera de la investigación matemática activa para seguir diferenciando a los mejores sistemas, algo ha cambiado de fondo.

No es que la IA «ya resolvió las matemáticas». Es que los viejos exámenes ya no alcanzan para medirla.

El problema de medir lo que no para de crecer

Durante años, benchmarks como GSM8K (8,500 problemas de matemáticas de primaria) o MATH (12,500 ejercicios de nivel competitivo) fueron el estándar para evaluar el razonamiento de los modelos. Hoy, los sistemas más avanzados los resuelven casi a la perfección. No porque la IA sea omnisciente, sino porque parte del contenido evaluado, o material muy parecido, ya estuvo presente durante el entrenamiento.

La contaminación de datos convierte una puntuación alta en una señal opaca. ¿El modelo razona o recuerda?

FrontierMath intenta romper esa ambigüedad. Y el hecho de que ahora también empiece a ser presionado por los modelos más nuevos plantea una pregunta incómoda: ¿cuánto tiempo antes de que este examen también quede obsoleto?

La evolución desde Turing hasta FrontierMath no es solo técnica. Es filosófica. Cada vez que la IA supera una prueba, la humanidad tiene que inventar una más difícil para seguir entendiendo qué está pasando. Por ahora, el marcador dice 50%. La pregunta que sigue es qué vendrá después del examen que todavía no existe.