Thinking Machines Lab, la empresa de inteligencia artificial fundada por Mira Murati, presentó una vista previa de investigación sobre “interaction models”, una propuesta para construir sistemas de IA capaces de colaborar en tiempo real con audio, video, texto y herramientas, en lugar de operar únicamente bajo el esquema tradicional de pregunta y respuesta.
La investigación fue presentada este lunes por la compañía y difundida por Murati en X, como parte de una línea de trabajo enfocada en modificar la forma en que las personas interactúan con modelos de IA. Thinking Machines plantea que la interactividad no debe agregarse como una capa externa al modelo, sino formar parte de su diseño desde el inicio.
A diferencia de los chats actuales, donde el usuario escribe o habla, espera una respuesta y luego corrige o amplía la instrucción, los modelos de interacción buscan mantener una colaboración continua. Según la empresa, estos sistemas pueden recibir audio, video y texto de manera simultánea, responder en tiempo real, interrumpir cuando sea necesario, detectar silencios, seguir señales visuales y usar herramientas mientras la conversación sigue abierta.
La propuesta técnica se basa en un diseño de microturnos alineados en el tiempo, con fragmentos de interacción de 200 milisegundos. Esto permitiría al modelo conservar dentro del contexto señales que suelen perderse en los sistemas por turnos, como pausas, traslapes de voz, interrupciones, gestos o cambios visuales durante una tarea.
Thinking Machines también plantea una arquitectura dividida entre un modelo de interacción, encargado de permanecer presente con el usuario en tiempo real, y un modelo de fondo, orientado a tareas más pesadas como razonamiento prolongado, navegación, uso de herramientas o flujos agente. La empresa sostiene que este esquema permitiría combinar rapidez de respuesta con capacidades más complejas sin sacar al usuario del proceso.
El anuncio no representa todavía el lanzamiento de un producto masivo ni necesariamente un salto probado en capacidad de razonamiento. Su relevancia está en otro punto: Thinking Machines está cuestionando la interfaz dominante de la IA generativa, basada en prompts y turnos cerrados, y propone una experiencia donde el modelo pueda acompañar el trabajo mientras ocurre.
El movimiento llega después de que Thinking Machines asegurara acuerdos relevantes de infraestructura. En marzo, la empresa anunció una alianza estratégica plurianual con Nvidia para desplegar al menos un gigawatt de sistemas Vera Rubin de próxima generación, destinados al entrenamiento de modelos frontera y plataformas de IA personalizables a escala. Nvidia también realizó una inversión significativa en la compañía.
En abril, TechCrunch reportó que Thinking Machines firmó además un acuerdo multianual y multimillonario con Google Cloud para ampliar el uso de infraestructura de IA, incluidos sistemas con GPUs Nvidia GB300. Según el reporte, el acuerdo no es exclusivo y forma parte de la competencia entre proveedores de nube por asegurar a laboratorios de IA de frontera.
Con ese contexto, la presentación de los “interaction models” muestra a Thinking Machines en dos frentes: por un lado, el acopio de capacidad computacional para entrenar y desplegar modelos avanzados; por otro, una apuesta de diseño sobre cómo deberían usarse esos modelos. Más que anunciar una IA autónoma que sustituya al usuario, la empresa parece ensayar una hipótesis distinta: que la IA será más útil si puede permanecer en copresencia con la persona, recibir correcciones durante el proceso y colaborar sin esperar instrucciones perfectas.
