El error de Grok y lo que revela sobre la IA en el periodismo ·

El modelo de xAI atribuyó erróneamente imágenes del ataque a una escuela en Irán a un evento de 2021. La reacción fue inmediata. Pero el debate que siguió merece más matices que los que circularon en redes.

El 28 de febrero de 2026, un ataque contra una escuela femenina en Minab, Irán, generó cobertura internacional casi en tiempo real. La agencia EFE difundió material audiovisual del lugar pocas horas después del incidente. En ese mismo lapso, usuarios en X comenzaron a consultar a Grok, el modelo de inteligencia artificial integrado en la plataforma, sobre la autenticidad de las imágenes. La respuesta del sistema fue categórica y equivocada: afirmó que el material correspondía a un atentado ocurrido en Kabul en 2021.

Las verificaciones independientes no tardaron en desmentirlo. El Consejo de Redacción de EFE lo hizo público el 1 de marzo con un hilo en X que denunció el error y cuestionó la invisibilidad de la rectificación posterior: «El periodismo riguroso no puede estar a merced de errores algorítmicos», escribieron. La respuesta del gremio periodístico hispanohablante fue rápida y contundente.

🚨 El periodismo riguroso no puede estar a merced de errores algorítmicos.
Desde el Consejo de Redacción de @EFEnoticias denunciamos cómo la IA de Grok ha atacado nuestra credibilidad con información falsa y una rectificación invisible. 🧵 Abrimos hilo.

— Consejo de Redacción de Efe (@cderedaccionefe) March 1, 2026

Un error técnico en el peor momento posible

Entender el fallo exige separar tres niveles distintos. El primero es perceptivo: los modelos como Grok operan mediante representaciones matemáticas de imágenes y texto. Cuando un material nuevo comparte alta similitud visual con un evento histórico ampliamente documentado (una escuela destruida, víctimas infantiles, un entorno urbano específico) el sistema puede asociarlo estadísticamente con ese evento previo si no existe un anclaje temporal lo suficientemente fuerte. No es que el modelo «vea» las imágenes como lo haría un periodista; las procesa como patrones, y en este caso, los patrones apuntaban hacia Kabul 2021.

El segundo nivel es contextual. Grok opera integrado en X, no en un entorno controlado. En las primeras horas de un evento viral, la red social genera hipótesis, afirmaciones y repeticiones que pueden convertirse en señal para el sistema antes de que existan verificaciones consolidadas. Si el modelo incorpora ese ruido como parte de su contexto de respuesta, el riesgo de error aumenta. No es una falla moral; es un riesgo inherente a procesar datos en caliente, cuando la información aún es inmadura.

El tercer nivel es quizá el más relevante para el debate periodístico: la calibración. El problema no fue únicamente la atribución equivocada, sino el tono con el que Grok respondió. Un sistema robusto debería, en contextos de alta incertidumbre, reducir su nivel de confianza, declarar hipótesis múltiples o simplemente señalar que no puede verificar. Responder con certeza en la ventana crítica de los primeros minutos, cuando la información circula más rápido que la verificación, amplifica exponencialmente el margen de error. El resultado fue un falso positivo de atribución en un entorno que reproduce la primera respuesta mucho más que la corrección posterior.

El debate que sigue mal planteado

Parte de la conversación que siguió al error de Grok derivó hacia una conclusión tajante: la inteligencia artificial no debe usarse en el periodismo. Es comprensible como reacción, pero no resiste el análisis. Lo que ocurrió en Minab no demostró una incompatibilidad estructural entre IA y periodismo. Demostró una tensión específica entre velocidad y verificación, una tensión que, conviene recordarlo, no es nueva ni exclusiva de los algoritmos.

Grok fue diseñado para operar dentro de las dinámicas de inmediatez que definen a X. Ese diseño tiene un costo implícito: la precisión se sacrifica en favor de la respuesta rápida. Pero ese mismo dilema lo enfrentan las redacciones desde la era del cable. En breaking news, publicar antes que la competencia y esperar la confirmación oficial son dos objetivos que pocas veces coexisten. El incentivo económico (la audiencia, el tráfico, la relevancia algorítmica) empuja con frecuencia hacia la velocidad. Cuando se publica antes de verificar completamente, el riesgo de error aumenta. No siempre por mala fe, sino por estructura de mercado.

La diferencia relevante entre un periodista y un modelo no es la posibilidad de equivocarse (ambos lo hacen), sino la naturaleza del error. Un periodista puede equivocarse honestamente bajo presión, pero también puede manipular de forma deliberada. La intención estratégica es una posibilidad humana. Un modelo de lenguaje no posee voluntad ni motivación propia: puede reflejar sesgos de entrenamiento o decisiones de diseño empresarial, pero no decide mentir. Sus errores son técnicos, estadísticos y, en principio, auditables y recalibrables a escala. Eso no convierte a la IA en un árbitro neutral, pero sí hace que la naturaleza de su fallo sea distinta.

El tercer actor: el público

Hay una dimensión que el debate suele omitir: el rol del consumidor de información. Exigimos inmediatez y certeza al mismo tiempo. Penalizamos la espera y castigamos la duda. Interpretamos «en verificación» como debilidad y celebramos la afirmación contundente. Esa cultura de consumo informativo crea el entorno donde tanto periodistas como modelos priorizan la velocidad sobre el rigor.

La inmediatez absoluta y la certeza absoluta son incompatibles. Mientras el ecosistema recompense la primera respuesta y no la más rigurosa, los errores seguirán ocurriendo, con humanos o con algoritmos. El error de Grok no es solo un problema de calibración técnica. Es también el reflejo de un ecosistema informativo que le pide al sistema exactamente lo que le pide a las redacciones: responde primero, verifica después.

Lo que queda pendiente

La denuncia del Consejo de Redacción de EFE fue pertinente y necesaria. Los modelos que operan en plataformas de distribución masiva tienen una responsabilidad proporcional a su alcance, y esa responsabilidad incluye ser transparentes cuando no pueden verificar, reducir su confianza cuando los datos son inmaduros y hacer visible la corrección con la misma energía con la que circuló el error original.

Pero el debate no termina ahí. Reducirlo a «la IA no sirve para el periodismo» esquiva las preguntas más incómodas: ¿qué incentivos empujan a los medios a publicar antes de verificar? ¿Qué arquitecturas digitales premian la velocidad sobre el rigor? ¿Y qué responsabilidad tiene el público que exige certeza instantánea sobre eventos que aún están ocurriendo? El error de Grok fue real y sus consecuencias sobre la credibilidad de EFE también. Pero si solo miramos el algoritmo, perdemos de vista el sistema que lo alimenta.

Un error técnico en el peor momento posible

El debate que sigue mal planteado

El tercer actor: el público

Lo que queda pendiente

Entradas relacionadas

Los detectores de IA fallan más cuando el texto imita a un autor real

OpenAI reorganiza el trabajo alrededor de agentes: estos son los lanzamientos de su Build Week

Moonshot lanza Kimi K3 de forma discreta: 2.8 billones de parámetros y contexto de 1 millón de tokens