Google lanza Gemma 4 12B en plena carrera por llevar la IA de programación al escritorio ·

Google presentó Gemma 4 12B, un nuevo modelo multimodal de pesos abiertos diseñado para tareas de texto, imagen y audio, con una arquitectura pensada para operar en entornos locales y flujos de trabajo de desarrolladores.

El lanzamiento llega en una semana marcada por movimientos relevantes en el mercado de agentes de programación. OpenAI actualizó Codex con nuevas funciones para sus flujos de trabajo en escritorio, CLI e IDE, y también incorporó modelos especializados para tareas de desarrollo asistido.

La actualización más visible es Codex Sites, una función en preview dentro de la app de Codex que permite crear, guardar, desplegar e inspeccionar sitios web, dashboards, herramientas internas, web apps y juegos alojados por OpenAI. Con ello, Codex deja de operar únicamente como asistente dentro del flujo de desarrollo y empieza a cubrir una parte del despliegue.

En ese contexto, Gemma 4 12B no aparece solo como otro modelo abierto de Google, sino como parte de una disputa más amplia por definir dónde vivirá la inteligencia artificial que escribe, revisa, ejecuta y corrige código. Situación que a lo largo de este año se ha exponenciado.

De acuerdo con la documentación de Google, Gemma 4 12B es un modelo multimodal “encoder-free”, es decir, sin codificadores separados para procesar imagen y audio. En lugar de pasar esas entradas por módulos independientes antes de entregarlas al modelo de lenguaje, esta versión reemplaza los codificadores visuales y de audio por proyecciones lineales directas hacia el espacio de entrada del modelo. La apuesta técnica busca reducir pasos intermedios, memoria y latencia.

Buena parte de los sistemas multimodales actuales funcionan como una arquitectura compuesta: un componente interpreta la imagen, otro procesa audio y otro genera texto. Google está presentando Gemma 4 12B como un intento de simplificar esa cadena para que texto, imagen y audio puedan integrarse en un mismo circuito de procesamiento. Para desarrolladores, esto puede facilitar ajustes posteriores, despliegues locales y aplicaciones más ligeras.

La compañía ubica a Gemma 4 12B dentro de una familia más amplia de modelos orientados a distintos tipos de hardware. Las versiones más pequeñas están pensadas para dispositivos móviles, navegador y borde; mientras que los modelos de 12B, 26B y 31B apuntan a computadoras personales, estaciones de trabajo, asistentes de código y flujos agentivos. Google sostiene que estos modelos permiten convertir estaciones de trabajo en servidores locales de IA.

Ese punto conecta directamente con la dirección que está tomando el mercado. La IA de desarrollo ya no se limita a responder preguntas dentro de un chatbot. Cada vez más se instala en la terminal, el editor de código, el navegador, los entornos de prueba y las aplicaciones de escritorio. OpenAI empuja Codex como una capa capaz de operar sobre proyectos reales; Google responde con Gemma como una familia de modelos abiertos que pueden ejecutarse en hardware propio o integrarse a herramientas locales.

La competencia, entonces, no se reduce a quién tiene el modelo más grande o el benchmark más alto. La disputa se está desplazando hacia el entorno de ejecución: dónde corre el modelo, qué permisos tiene, qué tan cerca está del repositorio, cuánto puede ver del sistema, qué puede modificar y quién conserva el control de los archivos.

Para empresas, investigadores y desarrolladores independientes, esa diferencia puede ser estratégica. Un modelo local permite reducir dependencia de servicios en la nube, limitar la exposición de código sensible y trabajar con menor latencia. Pero también abre nuevas preguntas sobre seguridad, permisos, trazabilidad y supervisión humana, especialmente cuando estos sistemas empiezan a actuar como agentes capaces de editar archivos, ejecutar comandos y tomar decisiones dentro de un proyecto.

Gemma 4 12B llega, por tanto, en un momento en que la inteligencia artificial para programación está dejando de ser una interfaz conversacional para convertirse en infraestructura de trabajo. La terminal, el IDE y el escritorio se están transformando en el nuevo campo de disputa: no solo para generar código, sino para organizar cómo se desarrolla software en la era de los agentes.