Estas son las fuentes de información de la IA más usadas en 2025: para echarse a temblar

Imagen generada por la IA de Mistral

El rendimiento de una IA depende de los datos con los que se ha entrenado, por eso es interesante descubrir cuáles son sus fuentes, al menos las que revelan. Lo que piratean es secreto.

Seguro que recuerdas la famosa receta de la pizza con pegamento que recomendaba la inteligencia artificial de Google. La causa fue que se había entrenado con demasiadas fuentes humorísticas y sarcásticas. Eso no parece haber cambiado en 2025. Vamos a ver las fuentes a las que recurre la IA para buscar información en junio de 2025, según Stadista.

Estos datos se limitan a fuentes públicas. Después están los millones de libros, música, películas y otro contenido pirateado que se bajaron con BitTorrent las compañías de IA, pero eso es privado y no lo revelan.

Aunque las fuentes que vamos a mostrar se han usado para entrenar a la IA, la gráfica se refiere a fuentes en donde buscan información. Según las estadísticas que vamos a ver, la inteligencia artificial actual recurre, casi en la mitad de los casos, a los usuarios de Reddit. Para echarse a temblar...

Las fuentes para entrenar a la IA más utilizadas

Statista ha analizado 150.000 citas referenciadas a partir de 5.000 entidades (palabras clave) elegidas al azar, en los modelos de lenguaje que usan Gemini, ChatGPT y Perplexity, a partir de la base de datos Semrush. Las mediciones fueron tomadas en junio de 2025.

Según esta firma de análisis, nada menos que el 40,1% de las citas de la IA referencian a Reddit, una de las comunidades de usuarios más grandes del mundo.

En Reddit hay mucha información interesante, pero también mucha teoría de la conspiración, bromas, espacios irónicos, comedia, y otro contenido que está lejos de ser "información".

En segundo lugar queda la Wikipedia, con el 26,3% de las citas. Sin ser perfecta, sin duda es una de las fuentes más fiables de toda la lista.

Completa el podio YouTube, con el 23,5% de todas las referencias a fuentes de información de la IA. Otra plataforma que está lejos de ser confiable, porque todos sabemos que la primera cualidad de los youtubers, es la exageración.

A continuación, hay fuentes bastante conocidas, como Google, Facebook, Amazon, o Tripadvisor. Llama la atención que Yelp esté por encima de casi todas las anteriores, ya que es poco conocida en España. Es una web de reseñas de negocios, desde tiendas a bares o medicina privada.

Cierran la lista dos servicios de mapas: Mapbox y OpenStreetMap. Sorprende la ausencia de otras redes muy conocidas, como X o TikTok. Quizá porque X tiene su propia IA, Grok, y es la competencia. Y porque TikTok es China, y eso es tabú para las empresas norteamericanas hoy en día. También vemos que la IA ignora por completo a la prensa profesional.

No me quedo muy tranquilo, tras conocer cuáles son las principales fuentes de información que citan diferentes IA en sus resultados. Y lo digo con conocimiento de causa, tras usar Reddit varios años...

Otros artículos interesantes: