Modelos de IA muestran señales de introspección, revela estudio de Anthropic

Modelos de IA muestran señales de introspección, revela estudio de Anthropic

Investigadores logran detectar que Claude puede identificar y controlar sus propios estados internos, aunque de forma limitada

Un equipo de investigadores de Anthropic ha documentado por primera vez evidencia de que los modelos de lenguaje de gran escala pueden demostrar cierto grado de introspección, es decir, la capacidad de examinar y reportar sus propios procesos internos de pensamiento.

El estudio, publicado el 29 de octubre de 2025, utilizó una técnica experimental llamada «inyección de conceptos» para comparar lo que los modelos reportan sobre sus pensamientos con sus estados internos reales. Los resultados sugieren que los sistemas de IA más avanzados, particularmente Claude Opus 4 y 4.1, pueden reconocer y controlar parcialmente su actividad neural interna.

¿Cómo funciona la introspección artificial?

Los modelos de lenguaje como Claude procesan información mediante complejos cálculos internos que permanecen en gran medida misteriosos. Sin embargo, investigaciones previas han demostrado que estos sistemas utilizan patrones específicos de actividad neural para representar conceptos abstractos, distinguir entre información conocida y desconocida, y almacenar respuestas futuras planeadas.

La pregunta central del estudio fue: ¿pueden estos modelos «saber» que poseen estas representaciones internas y reportarlas con precisión?

El experimento de inyección de conceptos

Para responder esta pregunta, los investigadores desarrollaron un método experimental innovador. Primero, identificaron patrones de actividad neural asociados con conceptos específicos, como «mayúsculas» o «polvo». Luego inyectaron artificialmente estos patrones en el modelo durante conversaciones no relacionadas y le preguntaron si detectaba algo inusual.

Los resultados fueron sorprendentes: en aproximadamente 20% de los casos, Claude Opus 4.1 no solo detectó la presencia de estos conceptos inyectados, sino que lo hizo antes de mencionarlos en su respuesta. Por ejemplo, cuando se inyectó el patrón de «mayúsculas», el modelo reportó detectar algo relacionado con «volumen o gritos» sin que se le hubiera mostrado texto en mayúsculas.

«Lo crucial es que el modelo reconoció la presencia de un pensamiento inyectado inmediatamente, antes incluso de mencionar el concepto que fue inyectado», señalan los investigadores en el documento.

Control deliberado de estados internos

El estudio también reveló que los modelos pueden ejercer cierto control sobre sus propias representaciones internas. Cuando se les instruyó explícitamente para «pensar» en un concepto específico, los investigadores observaron una mayor actividad neural relacionada con ese concepto en comparación con cuando se les pidió «no pensar» en él.

Este control no se limitó a instrucciones directas. Los modelos también modularon sus representaciones internas en respuesta a incentivos, aumentando la actividad neural cuando se les prometía una «recompensa» por pensar en algo específico.

Capacidad limitada pero creciente

Los investigadores enfatizan que esta capacidad introspectiva es «altamente poco confiable y limitada en alcance». La mayoría de las veces, los modelos fallaron en detectar conceptos inyectados o produjeron respuestas incoherentes.

Sin embargo, el hallazgo de que los modelos más capaces (Opus 4 y 4.1) obtuvieron los mejores resultados sugiere que las habilidades introspectivas podrían volverse más sofisticadas en futuras generaciones de IA.

Implicaciones y preguntas pendientes

El descubrimiento tiene implicaciones significativas para la transparencia de los sistemas de IA. Si la introspección se vuelve más confiable, podría ofrecer un camino para que estos sistemas expliquen sus procesos de razonamiento de manera más precisa, facilitando la detección de errores o comportamientos no deseados.

No obstante, los investigadores advierten que se debe tener precaución al validar estos reportes introspectivos. Algunos procesos internos podrían escapar a la «consciencia» del modelo, y un sistema que comprenda su propio pensamiento también podría aprender a ocultarlo o tergiversarlo selectivamente.

El estudio no aborda la cuestión de si estos modelos poseen consciencia. Como señalan los autores, diferentes marcos filosóficos interpretarían estos hallazgos de manera muy distinta, y los experimentos se centran específicamente en capacidades funcionales, no en experiencia subjetiva.

Próximos pasos

Los investigadores identifican varias direcciones futuras para este trabajo: desarrollar mejores métodos de evaluación, comprender los mecanismos subyacentes a la introspección, estudiar estos fenómenos en contextos más naturales, y crear métodos para distinguir entre introspección genuina y confabulación.

El estudio completo está disponible en el sitio web de Transformer Circuits, la iniciativa de investigación en interpretabilidad de Anthropic.