Microsoft apuesta por Europa y sus lenguas para reforzar el entrenamiento de la IA

Brad Smith, presidente de Microsoft, reconoce que la mayor parte de la web está en inglés, y esto supone un entrenamiento pobre para los modelos de IA.
Europa tiene más de 200 lenguas en su territorio y, aunque esto supone una gran riqueza cultural, también es un gran reto para el entrenamiento de los grandes modelos de lenguaje (LLM) de inteligencia artificial.
En una publicación en su blog, Brad Smith, presidente de Microsoft, ha asegurado que "a medida que el mundo se digitaliza, gran parte de la diversidad lingüística y cultural de Europa corre el riesgo de quedarse atrás".
Esto se debe a que la mayor parte del contenido de la web está en inglés, mientras que gran parte de este refleja una perspectiva estadounidense; es decir, que la fuente principal de datos para el entrenamiento de los LLM proviene de aquí.
"Una inteligencia artificial que no comprenda las lenguas, historias y valores de Europa no puede servir plenamente a sus ciudadanos, a sus empresas ni a su futuro", ha subrayado Smith, haciendo referencia a que no solo es una cuestión cultural, sino también comercial.
En su sistema operativo, Windows, Microsoft ofrece la posibilidad de acceder a más de 90 idiomas, también incluyendo lenguas cooficiales, como son el euskera, el catalán, el gallego, el valenciano y el luxemburgués.
Según los datos aportados por Common Crawl y citados por Microsoft, de las 24 lenguas oficiales algunas como el danés, el finlandés, el sueco y el griego apenas representan menos del 0,6% del contenido de la web.
"Aunque los modelos generales y de mayor tamaño pueden manejar múltiples idiomas, aún pueden pasar por alto los matices lingüísticos, el contexto cultural y la profundidad regional necesarios para lograr aplicaciones realmente inclusivas", ha asegurado Smith.
"Los LLM entrenados con datos limitados son menos precisos, presentan más alucinaciones y errores, tienen dificultades con el vocabulario y reflejan un mayor sesgo".
Por ejemplificar esta desigualdad de lenguas en el contexto de entrenamiento de la IA, Microsoft menciona el modelo de código abierto Llama 3.1, que presenta una brecha de rendimiento de más de 25 puntos si se comparan el inglés y el letón.
Ahora bien, Microsoft ha destacado la dificultad de algunos sistemas de escritura, así como las posibilidades actuales de los modelos.
"Los caracteres cirílicos, el alfabeto griego y la escritura cursiva del árabe presentan propiedades distintas", ha expresado Smith. "Los tokenizadores estándar suelen segmentar estos sistemas de escritura de manera poco óptima, lo que puede perjudicar la capacidad del modelo para aprender el contexto a largo plazo o la ortografía precisa en esos idiomas".
Para cubrir todas las necesidades de Europa, Microsoft ha anunciado que asignará empleados de 2 de los centros de innovación en Estrasburgo (Francia) para apoyar el desarrollo de LLMs multilingües en la región.
De esta forma, se ampliará la disponibilidad de datos para el desarrollo de la IA, aprovechando las posibilidades de Microsoft Azure, como parte de los Compromisos Digitales Europeos, una iniciativa presentada a principios de este mismo año.
Dentro de esta, se encuentra también la apuesta por la nube, incluyendo la Nube Pública Soberana, la Nube Privada Soberana y las Nubes de Partners Locales, para garantizar que los datos de Europa se quedan en Europa.
