Esta innovación de Google podría hacer que ChatGPT y otros modelos sean más baratos

Google está desarrollando un nuevo enfoque llamado “cascadas especulativas”, capaz de acelerar los grandes modelos de lenguaje, reducir costes y mantener la calidad.
Los distintos modelos de lenguaje de gran tamaño (LLM) han transformado la tecnología, impulsando aplicaciones de inteligencia artificial como ChatGPT. Sin embargo, generar respuestas sigue siendo un proceso lento y bastante costoso.
Ahora, Google Research ha presentado una solución que podría cambiar todo esto, mediante un nuevo método llamado cascadas especulativas.
Hasta ahora existían dos enfoques principales para acelerar estos modelos. El primero, las cascadas, utiliza modelos pequeños y rápidos antes de consultar un modelo más grande y caro, aunque puede volverse lento si el modelo pequeño no está seguro de su respuesta.
El segundo método es la decodificación especulativa, que predice tokens en paralelo con un modelo pequeño que luego es verificado por el modelo grande.

La innovación de Google combina lo mejor de ambos métodos. Con las cascadas especulativas, un sistema puede aceptar respuestas correctas de un modelo pequeño incluso si no coinciden exactamente con la salida del modelo grande. Esto evita los cuellos de botella secuenciales de las cascadas tradicionales.
Para probar esta técnica, los investigadores la aplicaron a modelos como Gemma y T5, evaluándoles en tareas de resumen, razonamiento y codificación. Los resultados mostraron mejoras concretas en velocidad y eficiencia, con un mejor equilibrio entre coste y calidad.
Aunque actualmente esta técnica sigue en fase de investigación, si se implementa, podría ofrecer a los usuarios experiencias más rápidas y económicas en aplicaciones basadas en LLM.