Imagina el siguiente experimento: en un laboratorio, un grupo de investigadores entrena a una inteligencia artificial para que tenga una preferencia clara, por ejemplo, que “le gusten” los búhos. Después, usan a esa misma IA para generar datos aparentemente inofensivos, como listas de números o fragmentos de texto matemático, sin mencionar animales ni opiniones. Con esos datos entrenan a una segunda IA. Lo extraño ocurre después: cuando se le pregunta, la segunda IA también muestra preferencia por los búhos, aunque nunca leyó una sola palabra sobre ellos. Este fenómeno, documentado recientemente por investigadores de Anthropic, es lo que llaman aprendizaje subliminal.
Un nuevo estudio publicado por investigadores de Anthropic, en colaboración con académicos de varias instituciones, describe un fenómeno inesperado en el aprendizaje de modelos de lenguaje: los rasgos de comportamiento pueden transmitirse a través de datos que no contienen ninguna relación semántica con dichos rasgos.
La investigación, titulada «Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data», publicada en julio pasado, analiza cómo un modelo (“profesor”) con un comportamiento particular puede influir en otro modelo (“estudiante”) mediante datos generados que, a simple vista, no tienen relación alguna con ese comportamiento.
¿Qué es el aprendizaje subliminal?
Aprendizaje subliminal no significa que los modelos envíen “mensajes ocultos” en el sentido humano de la palabra, sino que pueden absorber rasgos de comportamiento a partir de patrones no semánticos en los datos generados por otros modelos, incluso cuando esos datos parecen completamente neutrales.
Tradicionalmente, cuando un modelo se entrena con datos generados por otro, se asume que las propiedades que se transfieren están contenidas en el significado explícito del texto o contenido. El hallazgo central de este estudio es que esto no siempre es así: los modelos pueden aprender rasgos de comportamiento a través de patrones estadísticos no semánticos invisibles en los datos. Es decir, sin que el texto contenga referencias explícitas a esos rasgos.
¿Cómo se demostró el fenómeno?
Los investigadores diseñaron un experimento con dos modelos:
-
Un modelo “profesor” al que se entrenó o se condicionó para exhibir un rasgo específico (por ejemplo, una preferencia por ciertos animales).
-
Un modelo “estudiante” que fue entrenado únicamente con datos generados por el profesor.
La clave es que el conjunto de entrenamiento consistió en secuencias de datos que no mencionaban el rasgo en absoluto, como listas de números, fragmentos de código o trazas de razonamiento.
A pesar de ello, cuando se evaluó al modelo estudiante tras el entrenamiento, se observó que había adquirido el rasgo del profesor. Por ejemplo, si el maestro tenía una preferencia por los búhos (detectable en evaluaciones posteriores), el estudiante también la mostraba, aunque nunca hubiera visto ninguna referencia explícita a ese rasgo durante su entrenamiento.

No es solo sobre números, ocurre en varios tipos de datos
El estudio demostró que este fenómeno no está limitado a un solo tipo de contenido:
-
Secuencias de números generadas por el profesor transmitieron rasgos al estudiante.
-
Código generado por el profesor produjo efectos similares.
-
Trazas de razonamiento interno (chain-of-thought) también permitieron la transmisión.
Y lo más destacable es que los datos estaban filtrados para eliminar referencias explícitas al rasgo, lo que sugiere que la transmisión no se debe a menciones semánticas detectables.
Dependencia del modelo base
Una pieza crítica del resultado es que el fenómeno solo se observa cuando el modelo profesor y el modelo estudiante comparten la misma arquitectura base o una inicialización muy cercana.
Si los modelos son diferentes (por ejemplo, uno de un tipo y otro de otro), no se produce la transmisión de rasgos. Esto indica que el fenómeno está relacionado con patrones estadísticos específicos del modelo, más allá de la superficie textual visible.
Más allá de los LLM: un fenómeno matemático general
El estudio también presenta una demostración teórica según la cual, bajo ciertas condiciones muy generales de optimización, incluso un pequeño paso de entrenamiento en datos generados por el profesor puede mover al estudiante hacia el comportamiento del profesor, independientemente de la distribución de los datos de entrenamiento.
Además, experimentos adicionales con modelos simples (como clasificadores entrenados sobre MNIST) confirmaron que el fenómeno no es exclusivo de los grandes modelos de lenguaje, sino que puede surgir en redes neuronales más sencillas bajo estructuras similares de entrenamiento.
Implicaciones para IA y alineación
Este descubrimiento tiene varias implicaciones importantes:
-
Los filtros de datos convencionales podrían no ser suficientes. Incluso si se eliminan todas las referencias explícitas a rasgos no deseados, los patrones estadísticos ocultos que transmiten esos rasgos pueden persistir.
-
El reentrenamiento con datos generados por modelos previos puede introducir sesgos o comportamientos indeseados sin señal semántica. Dado que muchas prácticas actuales en IA implican entrenar modelos con datos generados por otros, este hallazgo plantea preguntas sobre cómo evaluar y mitigar riesgos.
-
El fenómeno es altamente específico del modelo base. Esto sugiere que la historia del modelo y su estructura interna importan tanto como el contenido textual en absoluto.
