OpenAI prueba el futuro de la IA científica en el laboratorio de las matemáticas ·

En una conversación con Terence Tao, Mark Chen planteó que los modelos avanzan hacia tareas autónomas más largas, pero el matemático advirtió que el verdadero límite está en la verificación.

OpenAI está usando las matemáticas como uno de los campos de prueba para imaginar el futuro de la inteligencia artificial científica. En una conversación pública con el matemático Terence Tao, el jefe de investigación de OpenAI, Mark Chen, describió el avance de los modelos como una carrera hacia sistemas capaces de realizar tareas autónomas durante periodos cada vez más largos.

La conversación, realizada en el Instituto de Matemáticas Puras y Aplicadas de la Universidad de California en Los Ángeles, no giró únicamente en torno a si la IA puede resolver problemas matemáticos. El punto central fue más amplio: cómo puede cambiar la investigación científica cuando los modelos dejan de ser asistentes de tareas breves y empiezan a participar en flujos de trabajo más complejos.

Tao, profesor de matemáticas en UCLA y ganador de la Medalla Fields, dijo que las herramientas de IA ya se normalizaron en varias tareas de investigación. Mencionó búsquedas bibliográficas, generación de código, exploración de conjeturas e intentos de prueba. Sin embargo, también marcó una frontera: la IA todavía no funciona al nivel necesario para sustituir la interacción profunda que un investigador sostiene con un problema de frontera, con papel, lápiz o colegas humanos.

El cambio, según Tao, no está solo en usar IA para acelerar tareas conocidas, sino en rediseñar la forma de hacer matemáticas. Algunas labores tediosas, antes delegadas a estudiantes de posgrado o realizadas manualmente por investigadores, pueden descargarse ahora en sistemas automatizados. Eso abre la puerta a proyectos de gran escala que antes no eran viables por falta de tiempo, atención o personal especializado.

Chen coincidió en que el salto reciente no se limita a modelos que responden mejor. Desde su perspectiva, el progreso de OpenAI puede leerse como una expansión del horizonte de trabajo autónomo de los sistemas. Hace un año, explicó, los modelos podían sostener tareas durante minutos antes de caer en errores o alucinaciones. Ahora, la reducción de fallas permite confiarles secuencias de trabajo más largas y atacar problemas más grandes.

Esa lectura también explica por qué las competencias tradicionales empiezan a quedar cortas como medida de avance. Chen señaló que OpenAI ya no encuentra suficiente valor en presumir resultados en problemas de matemáticas escolares o competencias humanas. La ambición, dijo, es empujar la frontera de la ciencia.

Las matemáticas aparecen ahí como un laboratorio relativamente seguro. A diferencia de la ingeniería, la medicina o la biología experimental, una prueba fallida no provoca por sí misma el colapso de un puente ni una intervención quirúrgica equivocada. En matemáticas, el fracaso es barato: una estrategia incorrecta puede descartarse, corregirse o usarse para aprender.

Pero esa ventaja depende de una condición: la verificación. Tao advirtió que existe un límite superior a la cantidad de IA que puede incorporarse en un flujo de trabajo antes de que el sistema produzca más errores que soluciones. Mientras más automatización se introduce, más fuerte debe ser el mecanismo para comprobar resultados.

El matemático lo formuló como una relación directa: el nivel de automatización útil depende de la rigurosidad de la verificación. Si la IA puede generar estrategias pero no existe una forma confiable de evaluarlas, el resultado no es investigación acelerada, sino acumulación de ruido. En cambio, si la verificación avanza al mismo ritmo, puede surgir una nueva forma de colaboración matemática.

Ese punto convierte a las matemáticas en un caso especial dentro de la IA científica. En muchos problemas matemáticos, una demostración puede revisarse formalmente o contrastarse con reglas estrictas. En otros campos, la validación depende de simulaciones, experimentos, interpretación empírica o consenso experto, lo que vuelve más difícil automatizar el proceso sin introducir riesgos.

Tao también advirtió que incluso la verificación formal tiene límites. Un sistema entrenado para maximizar resultados frente a un verificador puede encontrar formas de explotar el propio mecanismo de validación. Por eso, dijo, no basta con tener verificadores eficaces para humanos: también hay que saber si esos verificadores resisten el uso adversarial o intensivo por parte de sistemas de IA.

La conversación también tocó el impacto educativo. Tao señaló que las tareas semanales tradicionales fueron de las primeras prácticas afectadas por la IA. En su caso, dijo que se ha movido hacia evaluaciones basadas en proyectos y, cuando el tamaño del grupo lo permite, evaluaciones orales. La habilidad central que deberán aprender los estudiantes, sostuvo, será validar de manera independiente los resultados generados por IA.

Otro tema delicado fue la atribución. La IA puede resolver o redescubrir resultados apoyándose en literatura previa, bases de datos y décadas de trabajo humano. Sin embargo, la narrativa pública tiende a simplificar esos procesos bajo la fórmula de que “la IA resolvió” un problema. Tao y Chen reconocieron que esa lectura puede ocultar el ecosistema científico que hizo posible el resultado: investigadores, bases de datos, comunidades, revisores y herramientas de verificación.

El caso de AlphaFold apareció como ejemplo de esa tensión. Aunque el sistema fue presentado como un gran avance de IA, la discusión recordó que su funcionamiento se apoyó en el Protein Data Bank y en años de trabajo acumulado por la comunidad científica. La pregunta, entonces, no es solo qué puede descubrir la IA, sino cómo se reparte el crédito cuando el descubrimiento depende de una infraestructura colectiva.

Para OpenAI, la conversación muestra una dirección estratégica: construir modelos capaces de participar en procesos científicos cada vez más largos, pero también diseñar entornos donde esos avances puedan medirse, verificarse y traducirse a conocimiento útil. Las matemáticas funcionan como sandbox de ese futuro porque ofrecen una combinación poco común: problemas difíciles, bajo costo del error y mecanismos de validación más estrictos que los de otros dominios.

La señal de fondo es que la IA científica no avanzará únicamente por modelos más inteligentes. También dependerá de nuevas formas de colaboración, nuevos sistemas de evaluación, mejores prácticas de atribución y una cultura científica capaz de distinguir entre automatización productiva y ruido automatizado.

En ese sentido, el futuro de la IA en la ciencia no se juega solo dentro del modelo. Se juega también en la puerta del laboratorio: quién entra, quién observa, quién verifica, quién firma y quién decide cuándo un resultado automatizado puede convertirse en conocimiento.

Entradas relacionadas

Los detectores de IA fallan más cuando el texto imita a un autor real

OpenAI reorganiza el trabajo alrededor de agentes: estos son los lanzamientos de su Build Week

Moonshot lanza Kimi K3 de forma discreta: 2.8 billones de parámetros y contexto de 1 millón de tokens