"De ser cierto, es la mayor vendida de humo de la historia": Experto analiza ALIA, la nueva IA pública española

Pedro Sánchez ha presentado ALIA, la primera IA pública española, pero a pesar las alabanzas del Gobierno de España, parece que el ChatGPT español no convence a los expertos.
Ha sido la noticia de los últimos días: España ya tiene su inteligencia artificial pública, se llama ALIA, pero como era de esperar, no ha convencido a todos. El fundador de Magnific.ai y experto en IA, Javier López, asegura que "puede ser la mayor vendida de humo de la historia".
El proyecto ALIA del Gobierno de España es una infraestructura pública de modelos de inteligencia artificial, es decir, diferentes recursos de IA, incluidos modelos de lenguaje grandes (LLM), desarrollados en código abierto (open source), entrenados con datos públicos españoles, y que cualquiera puede utilizar.
Como era de esperar, tratándose de un proyecto político del gobierno, ha recibido críticas de expertos en donde es difícil saber hasta qué punto son críticas técnicas, o ideológicas. Entre otras cosas, porque aún no se ha probado a fondo.
ALIA no es ChatGPT, ni ha sido creada desde cero
Los diferentes modelos de lenguaje de ALIA están creados usando LLaMA, el modelo de lenguaje de Meta, que es de código abierto. Pero no son modelos basados en la IA de Meta, que se han refinado o personalizado. En el caso de ALIA se han entrenado desde cero con datos propios. Eso es lo más difícil, y lo más interesante.
Desde 2024, los modelos de ALIA se han entrenado durante miles de horas en el superordenador Mare Nostrum 5 del Barcelona Supercomputing Center. El Mare Nostrum 5 está en el puesto 11 entre los superordenadores más potentes del mundo, según TOP500.
Esta es la primera gran diferencia con respecto a otras IA basadas en LLaMA, que han sido previamente entrenadas por Meta y luego se refinan y personalizan. Pocas empresas pueden acceder a un superordenador propio.
El modelo fundacional de ALIA se llama ALIA-40B, un modelo de lenguaje grande (LLM) multilingüe (35 lenguas de Europa) de 40 mil millones de parámetros, entrenado desde cero con 7,8 billones de tokens.
También está Salamandra-7b, un modelo generativo multilingüe (35 lenguas de Europa) de 7 mil millones de parámetros, entrenado desde cero con 12,9 billones de tokens. Hay versiones instruidas de estos modelos en inglés, castellano y catalán.
Además, existen modelos especializados en traducción automática, como salamandraTA-2b, Plume y Alia-translator, entrenados para traducir entre idiomas europeos y cooficiales. Desde un traductor vasco-catalán, hasta traductores español-aragonés, asturiano o aranés.
ALIA no es ChatGPT, porque no está pensado para que todo el mundo pueda usarlo para charlar. Como dice Marta Villegas, máxima responsable de la Unidad de Tecnologías del Lenguaje del Barcelona Supercomputing Center, "eso costaría 5.000 millones de euros".
Mantener una IA generativa de uso masivo es un gasto enorme, por eso ALIA se va a centrar en proyectos concretos. Ya se han anunciado dos: un ChatGPT de uso interno para la Agencia Tributaria, y una herramienta de diagnóstico precoz de insuficiencias cardíacas.
La propuesta parece sólida, porque es un arranque de la IA pública, y lleva su tiempo. Pero algunos expertos en IA, como Javier López de Magnific.ai, han criticado duramente a ALIA en X.
Javier López asegura que los modelos de ALIA, "son peores y más caros que LLaMA 2-34b, un modelo open source que tiene más de año y medio". También, que "nos vendieron la moto de que estos modelos venían a mejorar la posición de la lengua de Cervantes en el NLP, pero finalmente resulta que casi todos los modelos son multilingües".
Y sentencia: "Lo que es peor, no hay pruebas, pero hay FUERTES INDICIOS de que estos modelos no son más un finetuning ligerito de LLaMA. De ser esto cierto, sería la MAYOR VENDIDA de humo de la historia".
Es posible que ALIA sea más caro y peor que LLaMA 2-34b, pero son modelos de lenguaje entrenados con datos propios, con lo que ya tiene su valor. Usan datos públicos de ColossalOSCAR, o Legal-ES, que incluyen datos del Congreso, el BOE, y otras bases de datos españolas.
Es cierto que, pese a que el gobierno ha vendido ALIA como una IA entrenada para dar peso al español, catalán y resto de idiomas oficiales españoles, el inglés y otros idiomas de la UE son mayoritarios.
En concreto, el 39,31% de los datos están en inglés, el 16,12% en español, y otros como el francés, el alemán o el ruso, rozan el 5%, frente al 1,97% del catalán, un 0,31% del gallego y un 0,24% del vasco. Pero estas cifras están en correlación con la cantidad y calidad de los datos que existen en estos idiomas, y el deseo de crear una IA que trabaje con todos los idiomas europeos.
En cualquier otra IA extranjera, el porcentaje de datos en castellano, catalán o vasco es mucho menor. Por último, Javier López asegura que hay fuertes indicios de que se parte de modelos refinados de LLaMA. Pero Marta Villegas, que es la responsable de los modelos, asegura que han sido entrenados desde cero.
Quizá, un debate más aprovechable, es el que propone Jaime Gómez-Obregón, ingeniero experto en código libre y el servicio público:
Este desarrollador de IA pide al Gobierno que libere el diccionario de la lengua española, ya que actualmente solo se pueden usar diccionarios con 70 años de antigüedad para entrenar a la IA, que son los de dominio público.
También pide que libere los 8 millones de sentencias públicas que atesora el CGPJ, que actualmente se venden. O los datos del registro mercantil, que son públicos, pero que no se pueden descargar de forma masiva. Parecen peticiones razonables: si queremos una inteligencia artificial pública fuerte, hay que liberar los datos públicos, para entrenarla.
ALIA, la inteligencia artificial pública española, ha nacido con polémica, criticada por algunos expertos. Es inevitable, tratándose de un proyecto político. Quizá lo importante aquí es que ya existe un punto de partida, y hay que comenzar a construirla entre todos.


