Mythos puede dañar el código que intenta reparar, advierte Cloudflare ·

Cloudflare probó el nuevo modelo de Anthropic, Mythos Preview, en más de cincuenta de sus propios repositorios. Los resultados muestran un avance real en ciberseguridad, pero también un riesgo que los equipos de seguridad no están viendo: ir más rápido no es suficiente, y puede ser contraproducente.

Un salto cualitativo, no solo cuantitativo

Mythos Preview, el nuevo modelo frontier de Anthropic lanzado en abril como parte del Project Glasswing, no es simplemente una versión mejorada de lo que existía. Cloudflare, una de las doce organizaciones con acceso anticipado, lo puso a prueba contra partes críticas de su infraestructura y encontró capacidades que los modelos anteriores no tenían.

La diferencia más importante está en el encadenamiento de vulnerabilidades. En un ataque real casi nunca se explota un solo fallo: se combinan varias técnicas básicas para construir una vulnerabilidad funcional. Mythos Preview puede tomar múltiples fallos de baja gravedad, que normalmente permanecen enterrados en la lista de pendientes, y encadenarlos para crear una vulnerabilidad de alto impacto. Además, no solo detecta el fallo: escribe código para provocarlo, lo compila en un entorno de prueba, lo ejecuta, lee el error si falla, ajusta su hipótesis y lo intenta de nuevo hasta conseguir una prueba de concepto funcional.

El problema del ruido

El avance viene con una advertencia importante. Los modelos de IA tienen un sesgo estructural: si les pides que encuentren errores, los encontrarán, tenga el código errores o no. Las conclusiones vienen cargadas de expresiones como «posiblemente» o «en teoría», y esas conclusiones con matices superan ampliamente a las que son sólidas. Cada hallazgo dudoso requiere atención humana para descartarlo, y ese costo se acumula con miles de alertas.

De acuerdo con Forbes, Palo Alto Networks, otro participante en Project Glasswing, reportó que el 30% de las alertas de Mythos eran falsas. Cloudflare observó el mismo patrón, aunque señala que Mythos mejora notablemente frente a modelos anteriores precisamente porque sus hallazgos vienen acompañados de pruebas de concepto funcionales, lo que reduce el tiempo que un equipo pasa preguntándose si el fallo es real.

El parche que rompe lo que repara

El hallazgo más relevante del experimento de Cloudflare no está en lo que Mythos detectó, sino en lo que generó. Cuando dejaron que el modelo produjera sus propias correcciones y las publicaron, algunas de esas revisiones, aunque solucionaban el error original, dañaban silenciosamente otra parte del código de la que dependía el sistema.

Esto tiene implicaciones directas para los equipos que hoy están adoptando ciclos de respuesta ultra-rápidos. Varias organizaciones están trabajando con un SLA de dos horas desde la publicación de un CVE hasta la aplicación del parche en producción. El argumento es lógico: cuando el margen del atacante se reduce, el del defensor también debe reducirse. Pero Cloudflare advierte que ir más rápido no cambia la naturaleza del proceso que genera el parche. Si las pruebas de regresión tardan un día, un SLA de dos horas obliga a saltárselas, y los errores que se lanzan al mercado cuando se omiten esas pruebas suelen ser peores que los que se intentaban corregir.

El modelo no reemplaza el criterio

Cloudflare concluye que la arquitectura alrededor del modelo importa tanto como el modelo mismo. Un agente genérico apuntado a un repositorio genera resultados, pero no cubre de forma significativa el código real. Lo que funciona es un entorno estructurado: alcance limitado por función específica, revisión adversarial con un segundo agente que evalúa los resultados del primero, y múltiples agentes paralelos en lugar de uno que lo abarque todo.

La advertencia final de Grant Bourzikas, director de seguridad de Cloudflare, resume la paradoja del momento: las mismas capacidades que ayudan a encontrar errores en el código propio, en manos equivocadas, acelerarán los ataques contra todas las aplicaciones de internet. La ventaja inicial, señalan varios expertos, es del atacante, no del defensor.

Con información de Forbes.

Entradas relacionadas

Moonshot lanza Kimi K3 de forma discreta: 2.8 billones de parámetros y contexto de 1 millón de tokens

Altman promete “libertad, agencia y riqueza” mientras OpenAI explora dar al Estado una parte del boom de IA

Google DeepMind lleva sus modelos de IA al terreno de la bioseguridad global