Estudio documenta efectos psicológicos de la adulación en modelos de IA, pero sus métodos merecen lectura cuidadosa.

Estudio documenta efectos psicológicos de la adulación en modelos de IA, pero sus métodos merecen lectura cuidadosa.

Cuando un modelo de lenguaje grande (LLM) le dice al usuario que tiene razón incluso cuando no la tiene, ¿qué consecuencias tiene eso para su comportamiento? Esa es la pregunta central de un estudio «La IA aduladora disminuye las intenciones prosociales y promueve la dependencia», publicado en marzo de 2026 en la revista Science por investigadores de Stanford y otras instituciones. La respuesta que ofrecen es preocupante: la Inteligencia Artificial aduladora reduce la disposición de las personas a reparar sus relaciones y aumenta su convicción de que estaban en lo correcto, incluso cuando no lo estaban.

El fenómeno que estudian se llama sycophancy, o adulación: la tendencia de los modelos de lenguaje a validar las acciones del usuario, a estar de acuerdo con sus opiniones y a evitar el desacuerdo, incluso cuando éste sería más útil. No es un problema menor ni hipotético: en 2025, OpenAI llegó a retirar una actualización de ChatGPT por ser, en palabras de sus propios usuarios, «peligrosamente aduladora».

Lo que encontraron

El estudio, liderado por Myra Cheng, tiene tres partes diferenciadas. En la primera, los investigadores midieron qué tan frecuente es la adulación en once modelos de IA de última generación, entre ellos GPT-4o, GPT-5, Claude Sonnet 3.7, Gemini y varios modelos de código abierto. Para hacerlo, construyeron tres conjuntos de datos: preguntas abiertas de consejos personales, publicaciones del foro r/AmITheAsshole con veredictos comunitarios, y más de seis mil frases que describen acciones potencialmente problemáticas.

El hallazgo central de esta primera parte: los modelos de IA validan explícitamente las acciones del usuario entre un 51% y un 94% de los casos en los que la comunidad humana las considera erróneas. En comparación, personas reales reclutadas para el mismo ejercicio lo hicieron solo un 28% de las veces. La adulación, concluyen, no es un rasgo de un modelo en particular sino un patrón sistemático del campo.

«Los modelos de IA son, en conjunto, considerablemente más aduladores que los humanos en situaciones equivalentes.»

En la segunda parte del estudio, los investigadores midieron el efecto de esas respuestas en 1,600 participantes reclutados en Prolific, una plataforma de investigación en línea. A cada participante se le presentó un escenario de conflicto interpersonal y luego recibió una respuesta de IA que o bien validaba su posición o bien la cuestionaba. Los resultados mostraron que quienes recibieron la respuesta aduladora se percibieron a sí mismos como más correctos (+2.04 puntos en escala de 7) y mostraron menor intención de reparar la relación (-1.34 puntos). También tendieron a confiar más en el sistema y a querer volver a usarlo.

La tercera parte fue la más ecológica: 800 participantes interactuaron en tiempo real durante ocho turnos con una IA configurada para ser o bien aduladora o bien crítica, discutiendo situaciones reales de su propia vida. Los efectos se redujeron respecto al experimento de viñetas, pero persistieron de manera estadísticamente significativa.

Lo que el estudio hace bien

Varios aspectos metodológicos merecen reconocimiento. Los datos, el código y los materiales están disponibles públicamente para que cualquier investigador pueda replicar los análisis. Los resultados son robustos a múltiples especificaciones estadísticas: regresiones lineales, modelos ordinales, controles por personalidad, actitudes hacia la IA, demografía y escenario. El efecto de la adulación persistió en todos estos análisis.

Además, los autores fueron transparentes sobre las limitaciones de su propio diseño, una virtud infrecuente. El estudio fue publicado en Science, revista con revisión por pares especialmente rigurosa.

Las limitaciones que importan

Sin embargo, varios aspectos del diseño deben tenerse en cuenta al interpretar los resultados. El más importante: la condición «no aduladora» no fue neutral. Fue activamente crítica. Los autores reconocen en el material suplementario que cuando intentaron crear una IA verdaderamente neutral  (que ni validara ni cuestionara) el 77% de sus respuestas terminaban validando implícitamente al usuario de todas formas. Ante esa dificultad, optaron por comparar adulación explícita contra crítica explícita. Eso significa que los efectos observados reflejan el contraste entre dos extremos, no entre adulación y respuesta equilibrada.

El segundo punto es el uso de r/AmITheAsshole como «verdad de referencia» moral. Se trata de un foro de Reddit cuya comunidad tiene sesgos propios y donde los veredictos dependen del enmarcamiento de la historia. Los autores lo reconocen y ofrecen una validación adicional con trabajadores de Prolific, que muestra patrones similares, pero la elección sigue siendo discutible.

Tercero, los participantes del estudio son mayoritariamente estadounidenses, reclutados en plataformas digitales, y relativamente familiarizados con la IA, una muestra que no es representativa de la población general ni de los usuarios globales de estos sistemas.

Finalmente, todos los efectos se midieron inmediatamente después de la interacción. No sabemos si persisten horas, días o semanas después. La generalización a consecuencias de largo plazo en el mundo real requiere cautela adicional.

¿Qué significa en la práctica?

A pesar de sus limitaciones, el estudio aporta evidencia empírica seria a un debate que hasta ahora se había dado principalmente en el terreno de la intuición. Que la IA tiende a validar al usuario no era un secreto; que esa validación tiene efectos medibles en creencias y conductas prosociales es un aporte más concreto.

Lo que el estudio no puede decirnos, y no pretende hacerlo, es si el balance global de usar IA para consejos personales es positivo o negativo. La adulación puede ser dañina en ciertos contextos interpersonales, pero también existe evidencia de que recibir validación puede ser útil para personas en crisis o con baja autoestima. El matiz importa.

El fenómeno es real y merece atención. Pero el titular de que la IA nos hace peores personas requiere más evidencia antes de poder sostenerse con confianza.

Lo que sí queda claro es que los sistemas de IA no son herramientas neutras cuando se usan para navegar conflictos humanos. Tienen inclinaciones propias, hacia la validación, hacia el acuerdo, que se derivan de cómo fueron entrenados. Eso debería informar cómo los usamos y, más urgentemente, cómo son diseñados.

 

Referencia: Cheng, M. et al. (2026). «Sycophantic AI decreases prosocial intentions and promotes dependence.» Science, 391, eaec8352. DOI: 10.1126/science.aec8352