Investigadores de Sakana AI y NVIDIA presentaron un nuevo método para reducir el costo computacional de los grandes modelos de lenguaje mediante el uso de sparsidad no estructurada en las capas internas de los transformers.
El artículo, titulado Sparser, Faster, Lighter Transformer Language Models, plantea que los modelos de lenguaje pueden funcionar con una activación mucho menor de sus neuronas internas sin perder de forma significativa su rendimiento en tareas posteriores. Según el artículo, una regularización simple puede inducir más de 99% de sparsidad con un impacto mínimo en el desempeño del modelo.
En términos prácticos, esto significa que el modelo no tendría que usar todos sus componentes internos para procesar cada token. En lugar de activar una gran cantidad de neuronas en sus capas de alimentación, una de las partes más costosas de los transformers—, el sistema aprende a usar solo una fracción de ellas según el contenido de entrada.
El problema, explican los autores, es que esa ventaja teórica no siempre se convierte en una mejora real. Aunque un modelo sparse realiza menos operaciones en papel, las GPU modernas están altamente optimizadas para cómputo denso. Por eso, las operaciones sparse pueden terminar siendo más lentas si no se diseñan formatos y kernels específicos para ejecutarlas de forma eficiente.
Para resolverlo, el equipo desarrolló nuevos kernels CUDA y un formato de empaquetado llamado Tile-wise ELLPACK, o TwELL, diseñado para integrarse mejor con las tuberías de ejecución de las GPU modernas. El objetivo es reducir el costo de administrar índices sparse y evitar accesos innecesarios a memoria, uno de los cuellos de botella habituales en este tipo de técnicas.
El estudio reporta mejoras de eficiencia tanto en inferencia como en entrenamiento. En modelos de miles de millones de parámetros, los autores señalan incrementos de hasta 20.5% en la ejecución hacia adelante y 21.9% en entrenamiento, además de beneficios en consumo energético y uso de memoria.
Los investigadores también sostienen que las ganancias aumentan con la escala del modelo, lo que podría volver la sparsidad una vía relevante para reducir los costos de infraestructura de los modelos fundacionales. Esto importa porque el crecimiento de los sistemas de IA ha estado ligado a mayores demandas de GPU, energía y memoria, especialmente durante entrenamiento e inferencia a gran escala.
El trabajo no presenta un nuevo chatbot ni un modelo comercial listo para usuarios finales, sino una propuesta de infraestructura: una forma de hacer que los transformers sean más baratos, rápidos y sostenibles desde la capa de ejecución. El equipo afirma que liberará el código y los kernels bajo una licencia de código abierto para facilitar su adopción e investigación.
La relevancia del avance está en que apunta a una de las tensiones centrales de la IA actual: los modelos siguen creciendo, pero la industria necesita que cada generación no dependa únicamente de más hardware. Si técnicas como esta logran integrarse en arquitecturas reales, la competencia por modelos más capaces podría empezar a incluir otra métrica: no solo quién escala más, sino quién logra hacer más con menos cómputo.
