Durante años, el avance de la inteligencia artificial se ha medido en una cifra aparentemente simple: el tamaño. Más parámetros, más datos, más capacidad. Pero cuando un modelo como un Transformer crece de millones a miles de millones de parámetros, no solo aumenta su volumen. Algo más profundo ocurre en su interior. Su estructura cambia. Su forma de organizar la información se reorganiza. Y esa transformación no es simplemente una cuestión de escala, sino de geometría interna.
¿Qué significa eso en términos prácticos? Que el modelo no se vuelve simplemente «más grande», sino diferente. Al escalar, algunas partes de su sistema interno empiezan a dominar el aprendizaje, mientras muchas otras quedan en segundo plano. Es como si, dentro de un espacio enorme de posibilidades, solo ciertas direcciones se volvieran realmente importantes. El aprendizaje deja de estar distribuido de manera uniforme y comienza a concentrarse.
Este fenómeno puede describirse como una reorganización interna. A medida que los modelos crecen, su dinámica se vuelve más estable, pero también más estructurada. No es que se vuelvan más rígidos en el sentido de perder capacidad, sino que desarrollan una geometría más definida: ciertas rutas de procesamiento adquieren mayor peso, mientras otras permanecen casi planas.
Este cambio interno no es solo una metáfora. Puede describirse matemáticamente. Diversos estudios han mostrado que, al escalar redes profundas, el espectro de sus matrices internas —incluyendo matrices de pesos y el Hessiano de la función de pérdida— tiende a reorganizarse. En lugar de una distribución uniforme de importancia, emerge una estructura donde pocas direcciones concentran gran parte de la dinámica efectiva del aprendizaje.
El Hessiano, que corresponde a la matriz de segundas derivadas de la función de pérdida, permite medir la curvatura del paisaje de optimización. Investigaciones como las de Sagun et al. y Ghorbani et al. han mostrado que, en redes profundas entrenadas, el espectro del Hessiano presenta un pequeño número de autovalores dominantes y una gran masa cercana a cero. Esto implica que la dinámica relevante del entrenamiento se concentra en un subespacio de baja dimensión, incluso cuando el número total de parámetros es enorme.
De manera complementaria, el análisis del régimen Neural Tangent Kernel (NTK), formalizado por Arthur Jacot, Franck Gabriel y Clément Hongler (2018), establece que en el límite de ancho infinito —con un escalamiento específico de los parámetros— el kernel (una función que mide similitud entre ejemplos de entrenamiento a través de los gradientes de la red) converge a una matriz determinística que permanece constante durante el entrenamiento. En ese régimen, la dinámica del aprendizaje es equivalente a un descenso de gradiente en el espacio de funciones con un kernel fijo, lo que introduce una forma de estabilidad estructural analíticamente tratable. Cabe señalar, sin embargo, que este resultado es estrictamente formal: el régimen NTK no captura el aprendizaje de representaciones (feature learning), que es una propiedad central de las redes profundas en condiciones prácticas. Su relevancia para Transformers a escala real es, por tanto, indirecta: ilustra una tendencia hacia dinámicas más estables al aumentar el ancho, pero no describe con fidelidad el comportamiento de modelos entrenados en la práctica.
Además, estudios empíricos sobre espectros de pesos —como los trabajos de Charles H. Martin y Michael W. Mahoney— muestran que, a medida que las redes escalan, el espectro tiende a exhibir colas pesadas (heavy-tailed distributions), consistentes con leyes de potencia. Este comportamiento es característico de sistemas altamente estructurados y anisotrópicos, donde la influencia no se distribuye de manera homogénea sino jerárquica.
En conjunto, estos hallazgos sugieren que el escalamiento en Transformers no implica simplemente un aumento de capacidad, sino una reorganización espectral: el sistema se vuelve más anisotrópico, con dinámicas concentradas en direcciones dominantes y amplias regiones del espacio de parámetros con curvatura cercana a cero.
Criticidad
En la literatura reciente, «criticidad» se usa para describir regímenes de entrenamiento donde aparecen firmas multiescala: colas pesadas, leyes de potencia y dinámicas que no se parecen ni a un sistema completamente estable ni a uno puramente caótico. Algunos trabajos reportan señales consistentes con criticidad durante el entrenamiento y proponen, como hipótesis activa, que estos regímenes podrían estar correlacionados con mejor desempeño o robustez, aunque la conexión causal no está aún consolidada en la literatura.
Al mismo tiempo, otras líneas teóricas sugieren que ciertas formas de escalamiento —especialmente al aumentar mucho el ancho bajo condiciones de inicialización específicas— pueden acercar partes de la dinámica al régimen del Neural Tangent Kernel, donde el kernel cambia poco durante el entrenamiento. Sin embargo, en la práctica, los modelos a gran escala suelen entrenarse deliberadamente fuera de ese régimen para preservar el aprendizaje de representaciones, por lo que esta tendencia no describe de forma general el comportamiento de Transformers reales.
En ese contexto, el debate no se resuelve con «escala = rigidez» o «escala = criticidad». La evidencia apunta a un panorama más matizado: el escalamiento puede aumentar la estabilidad en algunos aspectos, mientras reorganiza espectralmente el modelo y mantiene firmas multiescala en otros —por ejemplo, colas pesadas en espectros asociados a pesos y actualizaciones.
Comprender esta reorganización interna ayuda a matizar una idea común: que escalar un modelo equivale simplemente a hacerlo «más potente» o «más humano». La evidencia teórica y empírica sugiere algo distinto. A medida que los Transformers crecen, su comportamiento no se vuelve más caótico ni necesariamente más espontáneo. Se vuelve más estructurado.
El aprendizaje se concentra en direcciones dominantes, el paisaje de optimización exhibe curvaturas altamente desiguales y la dinámica efectiva se organiza en subespacios cada vez más definidos. Este proceso no implica pérdida de capacidad, sino redistribución de relevancia. El sistema no simplifica su funcionamiento; lo reorganiza.
