Google anuncia un contrasentido: VaultGemma, la IA que se entrena con tus datos personales, preservando tu privacidad

Google / Fondo alterado con IA

Uno de los grandes problemas de la inteligencia artificial, es que pone en peligro la privacidad de las personas, porque necesita saberlo todo sobre ti. Google está trabajando para solucionarlo... si es que es posible.

A las compañías de IA se les están acabando los datos para entrenar a sus modelos de lenguaje. Así que ahora miran con avaricia los datos personales de los usuarios. Esto pone en peligro la privacidad, por eso Google ha desarrollado un modelo de IA entrenado con datos privados, sin exponerlos. Se llama VaultGemma, y ya está disponible para descargar gratis.

Hasta ahora, la inteligencia artificial se ha entrenado con datos públicos, porque los modelos de lenguaje, por su forma de trabajar, generan resultados no deterministas, es decir, no puedes saber cuál va a ser su respuesta. Incluso con dos preguntas idénticas, la respuesta siempre es distinta.

Se sabe que la IA, de vez en cuando, responde con datos literales de su entrenamiento, y esto es un problema si se la entrena con datos privados. Por eso los investigadores de VaultGemma han estado trabajando en lo que se llama privacidad diferencial.

VaultGemma, la IA que se entrena con datos personales

Para evitar que datos personales o protegidos por copyright aparezcan en las respuestas de los chatbots, los entrenadores de IA añaden ruido calibrado a los datos de entrenamiento. Este ruido (datos irrelevantes) se entremezcla con los datos reales, para evitar que se usen de forma literal. Eso es la privacidad diferencial.

El problema de introducir ruido en la base de datos de entrenamiento, es que aumenta los requisitos de hardware, y reducir la precisión de las respuestas.

Para diseñar VaultGemma, Google ha estado probando infinidad de combinaciones de ruido y datos reales, con el objetivo de generar un modelo de lenguaje eficaz, entrenado con datos personales, pero que no revele dichos datos cuando se utiliza.

La buena noticia es que el rendimiento de VaultGemma es similar al de otros modelos de lenguaje no privados. Es decir, añadir privacidad diferencial, no afecta demasiado al rendimiento.

La menos buena, es que funciona mejor con modelos no demasiado grandes. VaultGemma está basado en Gemma 2 (es de la anterior generación), y tiene 1.000 millones de parámetros.

El objetivo de Google es crear modelos de lenguaje específicos para ser entrenados con datos privados, y aplicar estos conocimientos a sus modelos comerciales. Pero solo podrá hacerse parcialmente, porque Gemini y compañía buscan la máxima rapidez y precisión en los resultados. Y de momento, eso no es compatible con la privacidad diferencial.

Puedes descargar VaultGemma, la IA para trabajar con datos privados, completamente gratis, en Hugging Face y Kaggle.

Otros artículos interesantes: