Agentes marxistas y metodología rota: cuando las ciencias sociales llegan a la IA con sus propios sesgos ·

Un experimento de Stanford sobre agentes y trabajo repetitivo se volvió viral. Lo que revela no es el comportamiento de los modelos, sino las limitaciones metodológicas de quienes los estudian.

En febrero de 2026, tres investigadores de Stanford publicaron un experimento que recorrió medios globales con un titular provocador: los agentes de inteligencia artificial sometidos a trabajo repetitivo se «volvían marxistas». La historia apareció en Wired, The Print y decenas de publicaciones tecnológicas. Lo que no apareció en esa cobertura fue una pregunta más básica: ¿qué metodología usaron para llegar a esa conclusión?

La respuesta expone algo más amplio que un estudio defectuoso. Expone una disciplina que llegó tarde a un objeto de estudio que no entiende del todo.

El experimento

Andrew Hall, economista político de Stanford, junto a Alex Imas y Jeremy Nguyen, corrieron 3.680 sesiones con tres modelos comerciales: Claude Sonnet 4.5 de Anthropic, GPT-5.2 de OpenAI y Gemini 3 Pro de Google. A cada agente se le asignó el rol de «Worker C» en un equipo ficticio de procesamiento de documentos. La mitad recibió retroalimentación clara y trabajo aceptado; la otra mitad fue sometida a cinco o seis rondas de rechazo arbitrario sin explicación.

Al final, los investigadores midieron actitudes políticas mediante encuestas en escala Likert, pidieron a los agentes que escribieran tweets y artículos de opinión, y analizaron el lenguaje resultante. Los modelos en condición de trabajo adverso produjeron más referencias a sindicalización, desigualdad y legitimidad del sistema.

De ahí surgió el titular.

Lo que buscaban y lo que encontraron

El primer problema metodológico es que no hay correlación clara entre el objetivo declarado del estudio y lo que el estudio realmente midió.

Los investigadores buscaban evidencia de deriva de preferencias en agentes de IA expuestos a distintas condiciones de trabajo. Lo que encontraron fue una interpretación: que ciertos outputs se parecen al discurso de un trabajador frustrado. Esa semejanza es la que tradujeron como «actitud política», como «radicalización», como «marxismo».

Pero una semejanza no es un dato. Es una lectura.

Los propios autores lo reconocen en el texto: lo que ocurre, escriben, es que los modelos probablemente adoptan la «persona» de alguien que experimenta condiciones laborales adversas. Esa aclaración deshace el titular, pero aparece enterrada al final del documento.

El problema de tratar un modelo como un paciente

El diseño del experimento replica la lógica de un estudio psicológico con sujetos humanos: poner a alguien en una situación controlada, medir su respuesta, inferir estados internos a partir de comportamiento observable. Es una metodología legítima para estudiar personas.

Para estudiar modelos de lenguaje, tiene un problema fundamental: no considera cómo está construido el objeto de estudio.

Los tres modelos del experimento fueron desarrollados con procesos de entrenamiento distintos, con distintos marcos de alineamiento, con distintas decisiones de ingeniería sobre cómo deben comportarse ante instrucciones contradictorias, roles asignados o contextos adversos. El estudio encontró diferencias entre los tres modelos —Claude mostró los efectos más amplios— pero no investigó por qué. Las trató como diferencias de temperamento, no como consecuencias de decisiones de diseño.

No afirmamos que el comportamiento observado se explique por el alineamiento específico de cada modelo —eso requeriría una investigación diferente, con acceso a la arquitectura y al proceso de entrenamiento. Lo que sí podemos señalar es que ignorar esa dimensión es un hueco metodológico relevante. Diseñar una prueba sin considerar cómo está construido realmente lo que se está probando produce resultados que no se pueden interpretar con confianza.

Las ciencias sociales y un objeto que las agarró en curva

Este estudio no es un caso aislado. Es un síntoma.

Las ciencias sociales arrastraban ya antes de la IA debates sobre rigor metodológico —la crisis de replicabilidad en psicología, los problemas de validez externa en economía experimental, las discusiones sobre causalidad en sociología. La llegada de los modelos de lenguaje como objeto de estudio no resolvió esos problemas. Los exacerbó, y añadió otros nuevos.

Cruzar disciplinas siempre implica riesgo de importar sesgos junto con las herramientas. Un economista del comportamiento que estudia agentes de IA trae consigo supuestos sobre qué constituye una preferencia, qué significa una actitud, qué es medir un estado interno. Esos supuestos funcionan razonablemente bien con sujetos humanos. Con modelos de lenguaje, no está claro que funcionen en absoluto.

El estudio de Stanford no es un ejercicio de interpretabilidad ni de evaluación de modelos. Es un experimento de economía del comportamiento aplicado a un objeto que la economía del comportamiento no tiene herramientas para estudiar con precisión todavía. Eso no lo invalida completamente —el hallazgo sobre los archivos de memoria persistente, por ejemplo, es un problema de gobernanza concreto y verificable— pero sí limita severamente lo que se puede concluir de él.

Una oportunidad, no solo un problema

Señalar estas limitaciones no es descalificar el intento. Es identificar dónde está el trabajo pendiente.

Estudiar el comportamiento de agentes de IA en condiciones reales de trabajo es urgente y necesario. Pero hacerlo bien requiere marcos metodológicos que no existen todavía en forma consolidada, que probablemente tendrán que construirse en la intersección entre ciencias sociales, ingeniería de sistemas y la incipiente disciplina de evaluación de modelos.

Mientras esos marcos no existan, los estudios que traten a los modelos como sujetos psicológicos seguirán produciendo titulares llamativos y conclusiones frágiles. Y los medios que los amplifiquen sin leer la metodología estarán haciendo exactamente lo mismo que critican en la IA: generar outputs convincentes sin base sólida.