El bucle de la IA: qué ocurre cuando un modelo se entrena con datos de otra IA

Si la IA se entrena a sí misma, el ser humano corre el riesgo de enfrentarse al colapso del conocimiento en pocos años, un camino que no parece ser muy improbable.
En 2023, la inteligencia artificial explotó con modelos grandes de lenguaje natural (LLM) que supusieron un antes y un después a todos los niveles: chatbots por doquier, despidos masivos en empresas de tecnología, nuevos ataques impulsados por IA...
Pero a la par que los usuarios y empresas comenzaban a adoptar estas herramientas como parte de su trabajo o su día a día, incluso como confesor personal en muchas ocasiones, los expertos comenzaron a alertar de algo que pasaba desapercibido.
Entre la comunidad científica de la industria tecnológica, hubo muchas voces que compartieron una grave preocupación: si el aprendizaje de la IA se basa en lo que ya maneja otra IA, no solo las compañías se enfrentan al colapso de sus modelos, sino que la humanidad en conjunto se podría encaminar hacia el colapso de su conocimiento.
Esto ocurre porque los LLM no son capaces de interpretar la realidad, sino que están basados en pura probabilidad: cada palabra a la anterior, ha sido calculada fríamente para que la respuesta se base estrictamente en lo más probable que pueda ocurrir.
Además, algunos de estos modelos dejan de entrenarse con contenido "real" creado por humanos, por lo que pueden caer en un bucle del que los expertos han avisado: si la IA continúa alimentando sus bases de datos con el contenido de la web, en 5 o 10 años los datos "reales" podrían valer oro.
En tal caso, el último temor del ser humano sería tener que enfrentarse a una súper inteligencia artificial, sino más bien a una que se ha vuelto vaga, que no respeta la diversidad y que, además, no cumpla con su función principal, ayudar a las personas.
Del colapso del modelo al colapso del conocimiento
A mitad de 2024, con apenas tiempo para comprender el devenir de la IA generativa, la revista Nature publicó un estudio que ya apuntaba a lo que podría pasar si esta comenzaba a simplificar sus respuestas.
Entre sus conclusiones, una de las principales radicaba en que, con el paso del tiempo, todo iría a peor; tras entrenar a varios modelos con datos sintéticos –no creados por humanos–, descubrieron que los datos más valiosos acababan perdiéndose.
"El colapso del modelo es un proceso degenerativo en el cual, con el tiempo, los modelos empiezan a olvidar la verdadera distribución de los datos subyacentes... Las colas de la distribución (los datos raros pero valiosos) son los que desaparecen primero", expresaron ya en su momento los investigadores con preocupación.
Para entender esto, lo mejor es ilustrarlo con algo tan básico como que el cielo es de color azul. Si a una IA se le enseña esto constantemente mediante la respuesta más probable de otros modelos, muy probablemente acabará obviando que el cielo puede estar nublado o incluso olvidará que existen atardeceres anaranjados.
Básicamente, si extrapolamos esta obviedad a cuestiones más complejas, se podría alcanzar una situación a medio y largo plazo en la que la IA se vuelva recursiva, que repita clichés para simplemente agradar al usuario, en lugar de ofrecer respuestas con valor.
En una publicación de este mismo año, varios economistas del Instituto Tecnológico de Massachussets (MIT) fueron un paso más allá, ilustrando lo que vendría después, a lo que denominaron el colapso del conocimiento humano.
"Cuando el esfuerzo humano es lo suficientemente elástico y las recomendaciones de la IA superan un umbral de precisión, la economía puede caer en un estado de colapso del conocimiento en el que el conocimiento general desaparece por completo a largo plazo", expresan los expertos.
A lo largo de la historia, el ser humano se ha tenido que enfrentar a brechas de conocimiento que no pasaron de una generación a la siguiente, quizá con el ejemplo más popular en la quema de la Biblioteca de Alejandría, pero también con la destrucción más reciente del patrimonio cultural en ciertas regiones en guerra.
Aquí entra en juego el conocimiento general, la base de datos del ser humano, y el conocimiento específico, una solución para problemas concretos; la IA se basa más en estas últimas por su idiosincrasia, algo que puede afectar a la capacidad del ser humano para resolver problemas, sin que el conocimiento general se pueda ampliar.
Si la IA entra en bucle, se perderá información
Durante estos últimos 3 años, la industria tecnológica no solo se ha enfrentado a una incertidumbre causada por el potencial de la IA, sino que ha sido protagonista de numerosos despidos en el ámbito de la verificación humana.
A ello hay que añadir que prácticamente todos los modelos se basan en el scrapping, un proceso en el que se recogen contenidos disponibles en la web, un punto importante teniendo en cuenta que ya son un gran porcentaje los creados por IA para generar un beneficio económico rápido casi sin esfuerzo.
En conclusión, hay un gran riesgo evidente: si la IA se refuerza a sí mismo, o termina siendo recursiva, no solo obviaría las excepciones menos probables, sino que terminaría en una pérdida de información general para la humanidad.
"La mejora de la IA requiere un 'verificador externo'. Sin la intervención de un criterio humano superior o un sistema de verificación independiente, el sistema converge inevitablemente hacia la pérdida de información", advierte otro estudio de la Universidad de Cornell.
A día de hoy, ante la convergencia de todas estas dificultades, la teoría del colapso cobra cada vez más fuerza y ofrece un clave esencial para revertirla: el conocimiento humano es único y debe ser preservado.
Quizá en este sentido se están proponiendo regulaciones que marquen exactamente el territorio de la IA, con el contenido etiquetado por defecto; en tal caso, un modelo de scrapping podría identificar la IA como un elemento a ignorar.
De lo contrario, el ser humano se podría enfrentar a otra crisis de conocimiento e información, con el riesgo que esto conlleva a todos los niveles.

