Google quiere acabar con uno de los mayores cuellos de botella de la IA y esta es su solución: TurboQuant

Google quiere mejora la IA con TurboQuant
Google quiere mejora la IA con TurboQuantMontaje/Freepik

Google finalmente encuentra una respuesta técnica a la crisis global de memoria RAM de 2026. TurboQuant optimiza los modelos LLM y reduce el uso de recursos en los modelos.

La competencia por conseguir la mejor inteligencia artificial es cada vez más intensa y ahora ha llegado al punto de inflexión en el que hay una crisis de memoria RAM a nivel mundial, pero Google probablemente ha encontrado una solución con TurboQuant.

Algunos conocen esta situación crítica como la "RAMmageddon", donde la alta demanda de componentes que requieren los centros de datos para el entrenamiento de los modelos de lenguaje grandes (LLM) como Gemini es demasiado.

Sí, por eso es que ahora los componentes de ordenadores y consolas han aumentado considerablemente. Una parte del origen de este problema son los cuellos de botella, que suelen aparecer en los procesos de la memoria interna.

Con el nuevo sistema que está trayendo la compañía de Sundar Pichai, no solamente va a disminuir la sobrecarga, sino que también es una manera de romper uno de los límites técnicos que están siendo un dolor de cabeza para toda la industria.

TurboQuant: una respuesta directa al cuello de botella de memoria

TurboQuant de Google
TurboQuant de GoogleGoogle

¿Google está adelantando a la competencia? Parte de los avances tecnológicos actuales se están centrando en optimizar al máximo el desarrollo y mantenimiento de la inteligencia artificial.

OpenAI con ChatGPT, Microsoft con Copilot y otras compañías están haciendo sus propias investigaciones para seguir trayendo novedades y mantenerse de pie en la carrera, pero parece que justo lo que necesita actualmente, el gigante de Mountain View lo tiene en sus manos.

Hoy en día, unon de los puntos críticos es la “hoja de trucos digital de alta velocidad” o, técnicamente, el caché clave-valor (KV cache). Es un proceso que se realiza para que se eviten los cálculos repetidos y hacer que el funcionamiento del modelo sea más efectivo sin tener que consumir recursos innecesariamente. 

Este sistema se vuelve cada vez más exigente y complejo, por lo que la presión sobre la memoria permanece. Especialmente, sucede porque se va almacenando información intermedia y crece de manera lineal, haciendo que con el tiempo o desarrollo se vuelva lento y caro sostenerlo.

Sin embargo, Google ha anunciado oficialmente que su nueva estructura está "redefiniendo la eficiencia de la IA con una compresión extrema".

Se trata del TurboQuant, un método distinto que se realiza a través de la cuantificación. Es decir, se reduce la precisión numérica para que no haya tanta sobrecarga y lo mejor de todo es que no pierde calidad o requiere de un soporte adicional. Según explican, su funcionamiento se divide en dos etapas (resumido):

  • PolarQuant (Compresión de alta calidad): cambia los vectores cartesianos por los polares para que no se repitan normalizaciones.
  • Quantized Johnson-Lindenstrauss (QJL): reduce los cada uno de los elementos a bit (positivo o negativo) para "eliminar los errores ocultos" como el sesgo o cálculos incorrectos.

Normalmente, los modelos pierden calidad en un proceso de cuantificación, pero con estas dos fases de Google, cambia todo por completo. Se puede mantener la precisión en cargas de trabajo exigentes y sin sobrecargas.

Al parecer, con esto se reduce el uso de memoria para el caché clave-valor por un factor de seis. En términos estadísticos, los cálculos de atención se ejecutan hasta ocho veces más rápido ante operaciones de 32 bits, mientras que cuantifica hasta tres bits sin reentrenamiento de modelos.

Prácticamente, es una creación que otorga ventajas en energía, tiempo, compatibilidad y recursos. Para la crisis de la memoria RAM son buenas noticias porque, si se implementa en la mayoría de las empresas de IA, ya no se requerirían cantidades masivas de módulos físicos.

La optimización del software es una buena noticia para la escasez de chips, así que se está yendo por un buen camino. Todavía falta desarrollo y lo revelado son pruebas controladas, pero una vez que se confirmen sus beneficios en condiciones reales, no habrá vuelta atrás.