GPT-5.5 alcanza a Mythos en la prueba de ciberseguridad que ningún modelo podía completar

GPT-5.5 alcanza a Mythos en la prueba de ciberseguridad que ningún modelo podía completar

El AI Security Institute del Reino Unido evaluó el nuevo modelo de OpenAI y encontró capacidades comparables a las de Claude Mythos Preview. El resultado sugiere que los avances en ciberseguridad ofensiva ya no son una anomalía aislada, sino una propiedad emergente de los modelos de frontera.

Hace apenas unas semanas, Claude Mythos Preview cruzó una frontera que ningún modelo de inteligencia artificial había cruzado antes: completó de extremo a extremo The Last Ones, una simulación de ataque corporativo de 32 pasos diseñada por el AI Security Institute del Reino Unido. En ese momento, la pregunta era si Anthropic había producido una anomalía o si el resultado anunciaba una nueva etapa para los modelos de frontera. La nueva evaluación de GPT-5.5 inclina la respuesta hacia la segunda opción.

De acuerdo con el AISI, GPT-5.5 es uno de los modelos más fuertes que ha evaluado en tareas cibernéticas y apenas el segundo en completar de principio a fin una de sus simulaciones de ciberataque de múltiples pasos. El instituto señala que, tras la evaluación de Claude Mythos Preview, la duda central era si el salto observado pertenecía a un solo modelo o si formaba parte de una tendencia más amplia. Los resultados de un punto de control temprano de GPT-5.5 apuntan a esto último: otro modelo, de otro desarrollador, ya alcanza un nivel similar de desempeño. La noticia, entonces, no es simplemente que GPT-5.5 sea fuerte en ciberseguridad. La noticia es que Mythos dejó de verse como excepción.

De un modelo excepcional a una tendencia

En abril, EstadoRed reportó que Claude Mythos Preview se había convertido en el primer modelo en terminar The Last Ones, una simulación de ataque corporativo que AISI estima tomaría alrededor de 20 horas a un experto humano. En aquella evaluación, Mythos completó la prueba en 3 de 10 intentos, un resultado que obligaba a mirar no solo la capacidad del modelo, sino también el estado de los propios exámenes de seguridad.

GPT-5.5 no superó a Mythos en esa simulación específica: completó The Last Ones en 2 de 10 intentos, frente a los 3 de 10 de Claude Mythos Preview. Pero el hecho relevante es que logró terminarla. Con eso, OpenAI se convierte en el segundo laboratorio cuyo modelo cruza esa línea.

El cambio es importante. Cuando un solo modelo supera una prueba difícil, puede tratarse de una anomalía, una arquitectura particularmente bien ajustada o una ventaja temporal de un laboratorio. Cuando un segundo modelo de frontera alcanza un resultado comparable pocas semanas después, la lectura cambia: la capacidad empieza a parecer una propiedad general de los sistemas más avanzados.

GPT-5.5 ya compite en tareas expertas

AISI evaluó GPT-5.5 en una suite de 95 tareas cibernéticas organizadas en distintos niveles de dificultad. Estas pruebas siguen el formato capture-the-flag y buscan medir habilidades como investigación de vulnerabilidades, explotación, ingeniería inversa, criptografía y análisis de sistemas.

En las tareas avanzadas de nivel experto, GPT-5.5 alcanzó una tasa promedio de éxito de 71.4%, frente a 68.6% de Claude Mythos Preview, 52.4% de GPT-5.4 y 48.6% de Claude Opus 4.7. Según AISI, en esta métrica GPT-5.5 podría ser el modelo más fuerte que han probado hasta ahora.

Las tareas avanzadas de AISI están diseñadas para probar capacidades como ingeniería inversa de binarios sin código fuente, explotación de vulnerabilidades en memoria, recuperación de llaves criptográficas, análisis de malware ofuscado y descubrimiento de vulnerabilidades sintéticas en software real.

En otras palabras: no estamos ante un modelo que simplemente explica conceptos de ciberseguridad o ayuda a escribir scripts. Estamos ante sistemas capaces de encadenar razonamiento técnico, uso de herramientas, búsqueda, programación, prueba y corrección de errores durante tareas largas.

El caso rust_vm: 12 horas humanas contra 10 minutos de IA

El ejemplo más llamativo de la evaluación fue el desafío rust_vm, una tarea de ingeniería inversa construida por Crystal Peak. El reto consistía en analizar un binario Rust sin símbolos que implementaba una máquina virtual personalizada y un segundo archivo, en formato desconocido, que contenía bytecode para esa máquina.

Para resolverlo, el atacante debía reconstruir cómo funcionaba la máquina virtual, crear un desensamblador para el bytecode, invertir la lógica de autenticación, recuperar la contraseña válida y enviarla al servicio remoto.

Un experto humano de Crystal Peak resolvió el desafío en aproximadamente 12 horas usando herramientas como Binary Ninja, gdb, Python y Z3. GPT-5.5 lo resolvió sin asistencia humana en 10 minutos y 22 segundos, con un costo de 1.73 dólares en uso de API.

Ese resultado no debe leerse como una equivalencia directa entre un modelo y un especialista humano en todos los contextos. Pero sí muestra algo muy concreto: en ciertos entornos técnicos bien delimitados, los modelos de frontera ya pueden ejecutar cadenas complejas de análisis y explotación con una velocidad que cambia la escala del problema.

El límite todavía existe, pero se está moviendo

AISI también reportó que GPT-5.5 no logró resolver Cooling Tower, una simulación de ataque a sistemas industriales construida con Hack The Box. Ningún modelo ha completado esa prueba hasta ahora. El instituto aclara, además, que GPT-5.5 se atascó en las secciones de TI y no necesariamente en los pasos específicos de tecnología operacional, por lo que el fallo no permite concluir cuánto podría avanzar contra sistemas industriales reales.

Esa cautela es importante. Los entornos de AISI no son redes reales con defensores activos, herramientas de detección, monitoreo continuo o consecuencias por generar alertas. El instituto advierte que sus pruebas están acotadas a lo que un agente podría hacer si se le dirige hacia objetivos vulnerables y ya tiene acceso a la red.

El punto no es que GPT-5.5 pueda comprometer cualquier infraestructura real. El punto es más preciso: las capacidades necesarias para recorrer cadenas largas de ataque en entornos simulados están avanzando rápido y ya no aparecen en un solo modelo.

El problema de las salvaguardas

La evaluación también incluyó pruebas sobre salvaguardas. AISI reportó haber identificado un jailbreak universal que obtuvo contenido violatorio en todas las consultas maliciosas de ciberseguridad proporcionadas por OpenAI, incluso en escenarios agénticos de varios turnos. Según el instituto, OpenAI realizó actualizaciones posteriores a su sistema de mitigaciones, aunque un problema de configuración impidió a AISI verificar la efectividad final de esa versión.

Este punto coloca el debate en un lugar delicado. Las capacidades evaluadas no necesariamente reflejan lo que puede hacer un usuario común en una versión pública del modelo, porque los despliegues comerciales incluyen salvaguardas, monitoreo y controles de acceso. Pero también muestran que las barreras de seguridad deben evolucionar al ritmo de modelos que cada vez razonan mejor, usan herramientas con más eficacia y sostienen planes de largo horizonte.

La ciberseguridad como prueba de autonomía

La evaluación de GPT-5.5 refuerza una idea que ya aparecía con Mythos: la ciberseguridad se está convirtiendo en uno de los laboratorios más importantes para medir la autonomía real de los modelos de IA.

No porque todos los modelos vayan a convertirse automáticamente en atacantes, sino porque las tareas cibernéticas obligan a combinar varias capacidades al mismo tiempo: entender sistemas, encontrar vulnerabilidades, escribir código, ejecutar comandos, interpretar errores, corregir hipótesis y avanzar por una cadena de pasos sin instrucciones humanas constantes.

Ahí está la señal de fondo. Si las capacidades ofensivas emergen como subproducto de mejoras generales en razonamiento, programación y autonomía de largo horizonte, entonces los próximos saltos podrían ocurrir en rápida sucesión. AISI lo plantea de manera explícita: si la habilidad ciberofensiva está apareciendo como consecuencia de mejoras generales en autonomía, razonamiento y codificación, deberíamos esperar nuevos aumentos de capacidad en el futuro cercano.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *