Los bots de IA están matando a la Wikipedia: su tráfico ha aumentado un 50%

DepositPhotos / Computer Hoy

La Fundación Wikimedia ha lanzado un SOS por el abuso de los bots a la hora de copiar su contenido para entrenar a la inteligencia artificial. Ya representan el 65% del tráfico más pesado.

La Wikipedia, y su banco de imágenes y vídeos, Wikimedia Commons, dependen de una fundación sin ánimo de lucro, basada en las donaciones. Sus servidores están sobrecargados por los bots para entrenar a la IA, que se llevan todo el contenido sin ni siquiera dar las gracias.

Wikimedia ha publicado un informe sobre el uso de su contenido, 144 millones de fotos, vídeos, y otros ficheros que ofrece gratuitamente y sin derechos de autor, y los datos son preocupantes: su tráfico ha aumentado un 50% desde enero de 2024 por los bots que "escrapean" su contenido, para entrenar a la inteligencia artificial.

Hay otra cifra aún peor: el 65% del tráfico de su contenido más pesado (vídeos de larga duración), proviene de estos robots.

Bots de IA: Contenido gratuito, tráfico con ánimo de lucro

Quizá para gigantes como Google o Amazon, que ganan mucho dinero con el comercio de datos, servicios, etc., la presencia de bots de IA no suponga un problema. Para la Wikipedia, puede significar su muerte.

Todo lo relacionado con su ecosistema, incluido Wikimedia Commons, está gestionado por un organismo sin ánimo de lucro, la Fundación Wikimedia. Se financia a través de donaciones, y no van sobrados de dinero: seguro que has visto más de una vez en la Wikipedia, peticiones para donar a través de PayPal.

Como explica el mencionado informe, "el contenido es gratis, pero la infraestructura no". Wikipedia y derivados no tienen publicidad, y todo su contenido es gratuito. Pero su tráfico es enorme, y eso exige una cara infraestructura en forma de centros de datos distribuidos por todo el mundo.

Estos servidores tienen un tráfico finito, pensado para abastecer las necesidades de los seres humanos... pero no de la inteligencia artificial.

Cuando un artículo se solicita varias veces, se "memoriza", es decir, se almacena en una caché en el centro de datos más cercanos al usuario. Esto se hace porque buena parte del tráfico de la Wikipedia está relacionado con la actualidad, o el trending. Por ejemplo, si muere un personaje famoso o un actor gana un premio, el tráfico de su ficha en la Wikipedia, o sus fotos en Wikimedia, aumenta de golpe.

Cuando un usuario consulta un tema, hay posibilidades de que otro vaya detrás. Por eso se almacenan en una caché, para aliviar el tráfico de los servidores centrales. Si pasa un tiempo sin accesos, este tema se quita de la caché.

Por desgracia, los bots de IA rompen por completo este esquema, porque no buscan contenido popular, sino que "escrapean", es decir, descargan todos los contenidos en masa, uno tras otro. Incluyendo contenido que casi nadie solicita.

Esto hace que casi todas sus peticiones se remitan a los servidores centrales, sobrecargándolos. Los empleados de Wikimedia intentan frenar estas descargas masivas. Pero si pierden el tiempo luchando contra los bots abusadores, no pueden dedicarse a atender a los usuarios humanos.

Wikipedia no está en contra de que la inteligencia artificial use su contenido, pero los bots lo toman de forma abusiva, incluso usando trucos para ocultarse, o hacerse pasar por humanos, para que no sean detectados. Se llevan todo gratis, y luego lo usarán con ánimo de lucro. Y ni siquiera son capaces de hacer una donación.

No es un problema exclusivo de la Fundación Wikimedia. Todos los repositorios y archivos de datos que funcionan sin ánimo de lucro, sufren la misma situación: bots de IA abusadores e insaciables, que usan todos los trucos sucios posibles para llevarse todo el contenido, sin ni siquiera dar las gracias.

Otros artículos interesantes: