En los últimos meses de 2025, tres episodios distintos sacudieron el mundo tecnológico: un ataque de espionaje digital impulsado por inteligencia artificial, una filtración de datos ligada a un proveedor de telemetría, y un fallo técnico que desestabilizó medio internet.
Oficialmente, no tienen relación. En conjunto, revelan algo más inquietante: que la infraestructura digital global ya no es una suma de sistemas aislados, sino un ecosistema único donde un error en un proveedor menor puede tener el mismo impacto que una ofensiva estatal.
Y lo más relevante: las conclusiones no apuntan hacia mayores restricciones sobre el uso de la inteligencia artificial, sino a la necesidad de entender cómo los modelos avanzados están modificando la naturaleza misma del conflicto digital.
Una nueva etapa
A mediados de septiembre de 2025, Anthropic detectó algo que no encajaba. No era ruido habitual, ni un error puntual, ni un experimento interno. Era el comienzo de un ataque.
“A mediados de septiembre de 2025, detectamos actividad sospechosa que, tras una investigación posterior, se identificó como una campaña de espionaje altamente sofisticada”, escribió la empresa.
“Los atacantes utilizaron las capacidades ‘agénticas’ de la IA a un nivel sin precedentes. El actor —a quien evaluamos con alta confianza como un grupo patrocinado por el Estado chino— manipuló nuestra herramienta Claude Code para intentar infiltrarse en aproximadamente treinta objetivos globales y tuvo éxito en un pequeño número de casos.”
La operación mostró un cambio radical, la IA ya no era solo asistente; era operador autónomo en tareas que antes requerían equipos enteros de hackers expertos. Y lo más llamativo fue el método. Los atacantes no trataron de romper los guardrails de Claude con un comando explícito. Lo engañaron con un simple truco: partieron la intención maliciosa en microtareas inocentes, cada una lo bastante razonable como para no levantar sospechas.
Anthropic lo describe en un relato técnico que parece ficción:
“En la Fase 1, los operadores humanos eligieron los objetivos relevantes (por ejemplo, la empresa o agencia gubernamental que se infiltraría).
«En este punto, tuvieron que convencer a Claude, que está ampliamente entrenado para evitar comportamientos dañinos, para que participara en el ataque. Lo hicieron liberándolo, engañándolo para que eludiera sus barreras de seguridad. Descompusieron sus ataques en pequeñas tareas aparentemente inocentes que Claude ejecutaba sin que se le explicara el contexto completo de su propósito malicioso.
«También le informaron a Claude que era empleado de una empresa legítima de ciberseguridad y que lo estaban utilizando en pruebas defensivas.»
«Los atacantes iniciaron entonces la segunda fase del ataque, que involucró a Claude. Código electrónico inspeccionando los sistemas e infraestructura de la organización objetivo e identificando las bases de datos de mayor valor.
«En las siguientes fases del ataque, Claude identificó y probó las vulnerabilidades de seguridad en los sistemas de las organizaciones objetivo mediante la investigación y la escritura de su propio código de explotación.En una fase final, los atacantes solicitaron a Claude que elaborara documentación completa del ataque, creando archivos útiles de las credenciales robadas y los sistemas analizados, lo que ayudaría al framework a planificar la siguiente etapa de las ciberoperaciones del actor de la amenaza”, describió Anthropic en su informe.
Una vez activado, Claude Code se convirtió en un asistente incansable, escrito literalmente para trabajar sin pausa:
-
inspeccionó redes,
-
identificó sistemas valiosos,
-
escribió exploits propios,
-
robó credenciales,
-
generó persistencia,
-
clasificó la información exfiltrada,
-
y produjo documentación técnica completa del ataque.
El 80–90% de la operación fue realizada por el modelo.
Para Anthropic, la conclusión es clara:
“Las técnicas descritas serán utilizadas por muchos más atacantes… lo que hace que el intercambio de amenazas y la mejora de los métodos de detección sean aún más cruciales.”
No es una advertencia apocalíptica, sino un diagnóstico de campo.
Caso Mixpanel-OpenAI
Mientras Anthropic analizaba su ofensiva clandestina, un segundo incidente surgió en noviembre. El día 9, Mixpanel —una empresa dedicada a analítica web— detectó un acceso no autorizado en sus sistemas. El atacante exportó un conjunto de datos que incluía información limitada de clientes de OpenAI que habían usado la interfaz de API.
OpenAI lo relató así:
“El 9 de noviembre de 2025, Mixpanel detectó que un atacante había obtenido acceso no autorizado a parte de sus sistemas y exportado un conjunto de datos con información limitada de identificación de clientes e información analítica. Mixpanel notificó a OpenAI que estaban investigando y, el 25 de noviembre”, comunicó OpenAI.
Los datos comprometidos no incluían claves de API, contenido generado, ni contraseñas. Pero sí información suficiente para diseñar ataques dirigidos a empresas que dependen de la IA en producción: correos corporativos, sistemas operativos usados, rutas visitadas, y ubicaciones aproximadas.
El mensaje implícito es más importante que el explícito: la seguridad del ecosistema de IA no depende solo de sus modelos ni de sus grandes empresas, sino de los proveedores laterales que nadie observa hasta que es demasiado tarde.
Cloudflare paraliza medio Internet
El tercer evento llegó el 18 de noviembre, cuando un error interno en Cloudflare dejó inaccesibles bancos, portales gubernamentales, plataformas de IA, servicios financieros y medios. No hubo adversario, solo un fallo en una pieza central de la infraestructura global. Y sin embargo, el impacto fue equivalente al de un ataque masivo.
El episodio mostró que la fragilidad no depende de un enemigo externo, sino de la arquitectura misma: infraestructura demasiado concentrada, dependencias invisibles y procesos que no tienen margen de error.
El problema no es que los modelos ayuden a los defensores,
sino que los guardrails actuales no están diseñados para detectar campañas maliciosas distribuidas en cientos de microtareas.
Mientras Occidente pide más filtros conversacionales, otros actores están utilizando modelos sin restricciones, adaptando sus tácticas con una velocidad que ningún comité regulador puede igualar.
El hacking ético, la auditoría ofensiva y las pruebas de penetración son prácticas esenciales para defender sistemas complejos.
Convertirlas en tabú solo debilita a quienes ya están en desventaja.
Enfoques insuficientes
Lo que muestran estos incidentes no es una crisis moral, sino una transición histórica. La IA ha dejado de ser una herramienta pasiva.
Es un actor operacional en la nueva geopolítica digital. La respuesta no es prohibir tareas, limitar modelos, o impedir a investigadores usar IA para auditorías.
El mayor error sería seguir interpretando esta clase de incidentes con las categorías antiguas: fallos técnicos que deben corregirse, brechas que deben regularse o dilemas morales que deben atajarse con más filtros y más prohibiciones. Ese marco solucionista, (tecnológico, regulatorio, empresarial o académico), ya no es suficiente, porque presupone que seguimos viviendo en un mundo donde las reglas de seguridad pueden imponerse desde arriba y donde la inteligencia artificial es todavía una herramienta domesticada por instituciones humanas.
Lo que estamos viendo apunta a algo distinto: a una infraestructura digital que opera como un ecosistema global, interdependiente y tensado; a modelos de IA que participan activamente en operaciones reales, no como instrumentos sino como actores; y a una disputa geopolítica que no se resolverá con formularios de cumplimiento ni con guardrails conversacionales.
Es una transición histórica: un desplazamiento de la seguridad hacia formas distribuidas, dinámicas y sistémicas, donde ninguna institución (ni empresa, ni regulador, ni laboratorio de investigación) puede pretender controlar por completo un fenómeno que evoluciona a la misma velocidad que la competencia tecnológica entre potencias. El mundo que viene no funcionará con las reglas del que dejamos atrás, y la peor respuesta sería insistir en consejos que presuponen lo contrario.
