He probado los pódcast generados con IA y habría dado todo por tenerlos cuando estudiaba en la universidad

La inteligencia artificial tiene más magia de la que parece: he analizado la función de Google Gemini que ya puede resumir en un audio un documento o investigación.
Todas las semanas se inventa algo y, cuando se trata de inteligencia artificial, podríamos decir sin caer en exageraciones que el harén de novedades llega casi cada día. Cierto es que la gran mayoría de ellas son muy útiles y le solucionan la vida a cualquiera en muchas situaciones, pero son tantas que algunas de las más interesantes se nos llegan a escapar.
Es el caso de los llamados resúmenes de audio de Google.
Si no te suena de nada lo que te estoy contando es porque, probablemente, te hayas quedado con la sintonía de su nombre en inglés, Audio Overview, una herramienta impulsada por IA, que genera programas de audio o podcasts a partir de las notas guardadas por el usuario y que he tenido la oportunidad de probar.
Y es que, aunque parezca algo del futuro, la tecnología ya puede crear un diálogo con dos oradores sobre un tema concreto, siempre que le hayas dado las indicaciones adecuadas, lo que se consigue con esos resúmenes de audio, por los que habría dado todo durante mi etapa universitaria.

Al utilizar estos pódcast, lo primero que me ha venido a la cabeza es que, como a muchos, también me ha tocado leer y aprender sobre algo en muy poco tiempo, con una lectura en diagonal que no siempre ha sido muy acertada y a veces ha resultado en un mal resumen de un tema.
Esto es algo que, con toda probabilidad, las generaciones no tendrán que enfrentarse, debido a que tienen a mano soluciones muy sencillas de usar y, por encima de todo, de uso gratuito. Hablo de NotebookLM y Deep Research de Gemini, de los que te cuento todo lo que debes saber y mi opinión:
Qué es Notebook LM y Deep Research de Gemini
NotebookLM es una plataforma que funciona con archivos y documentos que están en posesión del usuario. Esto significa que puede crear un resumen de un PDF o una presentación de Google Slides sin que pierdas el tiempo inmerso en el archivo.
Por el contrario, Deep Research, de Gemini, ejecuta la investigación sobre fuentes online, como foros, agencias de noticias y vídeos de YouTube, lo que en mi experiencia me ha demostrado que puede ser muy útil cuando la consulta es de actualidad.
En ambos casos, se genera un documento de texto con los principales aspectos del tema escogido, aunque lo más interesante es que la información requerida también se puede escuchar, con pódcast que por el momento solo se crean en inglés.

Un listening del tema que más te apetezca
Como gran admiradora de la música rock de los setenta que soy, he querido indagar más sobre lo que fue el glam, un subgénero que arrancó en los años setenta y del que aún hoy hay referentes. Para hacerme una idea de lo que fue y cómo ha llegado hasta hoy, le he pedido a Gemini que me haga un resumen y lo transforme en un archivo de voz.
Un punto a favor de los resúmenes de audio de NotebookLM y Gemini es que Google les añade un título, lo que puede dar buena pista de lo que tratan.
En el caso de Deep Research es más concreto (Glitter, rebelión y 'T. Rextasy': descubriendo la explosión del Glam Rock) que NotebookLM, que facilita un enunciado menos ilustrativo (Brillantina, perseverancia y pioneros: desempaquetando la revolución del Glam Rock).
No obstante, NotebookLM añade una ilustración sobre él para dar un leve indicio sobre lo que trata ese audio. En este caso, ha incluido el emoticono de un pintalabios, que sí se asocia con el tema tratado, aunque podría haber sido incluso más preciso, como unas botas de plataforma, por citar un ejemplo.

Sobre los pódcast, no puedo decir otra cosa que la IA generativa funciona de maravilla, porque da la sensación de que quienes protagonizan el episodio y comentan el tema son dos personas reales, un hombre y una mujer, que preguntan y responden indistintamente.
Además, estas voces femenina y masculina son las mismas en las dos plataformas y sus roles se intercambian de manera aleatoria. De ese modo, a veces es el hombre quien presenta el pódcast y en otras ocasiones es la mujer la que da paso a su compañero, pero en ningún caso uno es el entrevistador y el otro el entrevistado o experto.
Frente a la robótica voz de Loquendo, que fue muy popular en plataformas como YouTube y Vimeo a comienzos de los 2000, o las presentes en los TikTok virales, la que proporcionan las herramientas de Google es muy parecida a la de cualquier listening de una clase de inglés.
Hay pausas e interjecciones, se ríen, tosen, suspiran y se escucha su respiración, así como los típicos chasquidos que se hacen con la lengua inconscientemente.
Siendo tan realistas estos oradores y teniendo en cuenta el juego que puede dar que canten algunas de las canciones a las que hacen referencia, en NotebookLM he echado de menos que haya una frase a modo de despedida, que suene algún tema o que los interlocutores los tarareen.
En Gemini, en cambio, la oradora sí hace amago de cantar algo, pero en realidad opta por recitar el título de la canción con un ritmo que no le pertenece.
Las canciones de las que se habla, por otra parte, son las más populares del repertorio del glam rock.
Eso es algo que no puedo entender, porque Google podría haber combinado canciones menos populares con las más representativas y no lo hace ni en Deep Research de Gemini ni en NotebookLM, a pesar de que hay un sinfín de temas musicales incluidos en las 224 páginas del documento que he subido para que analice.
Tampoco comprendo por qué el pódcast deja de estar disponible poco menos de una hora después de haberlo generado en la aplicación de Gemini para Google, aunque antes de que me pasara una segunda vez lo descargué. Esto no tiene mucha complicación, porque se hace desde el mismo menú de tres puntos de la grabación.
Esto también se puede hacer en NotebookLM, que, aunque no dispone de una aplicación móvil específica, almacena las consultas en orden cronológico siempre que se haya iniciado sesión en una cuenta de Google.
Un libro de otra autora que no prioriza lo más destacado
Antes de llevar a cabo las pruebas, había investigado bastante sobre el tema en cuestión, gracias a lo cual he podido comprobar en qué aspectos funciona la IA generativa de pódcast y cuáles son aquellos en los que necesita mejorar.
Sobre estos últimos, reconozco que Google se tiene que poner las pilas a la hora de descifrar qué es lo más importante y qué se puede obviar a la hora de resumir un género musical.
La locución de Gemini mantiene un orden cronológico y destaca en varias ocasiones los aspectos clave del movimiento (espectacularidad, teatralidad, maquillaje, creación de personajes escénicos, etc.). Entre medias, menciona alguno de los artistas con diferentes ejemplos, pero tampoco se para a explicar bien qué diferencia a un grupo de otro ni concreta fechas.
En la mayoría de los casos y a diferencia del documento de texto generado a partir de la consulta, Gemini aporta fechas abiertas ("a finales de los sesenta, a mediados de los setenta"), en lugar de señalar que un disco u otro se lanzó en 1968 o en 1975.

El pódcast creado con NotebookLM tampoco lo hace y coloca la información destacada de manera caótica. De hecho, en lugar de hablar de los principales artistas del glam (Marc Bolan, David Bowie, KISS, etc.), escoge dos de los capítulos centrales, dedicados a artistas mujeres, que fueron muchas menos que sus compañeros hombres.
Esto puede dar lugar a equivocaciones. Si bien prefiero que destaque algo menos conocido de esta parte de la historia de la música, el pódcast me puede dar una visión errónea de lo que fue el glam rock desde diferentes puntos de vista (musical, visual y social).
Aunque es mucho menos original, creo que lo suyo es que la IA sepa identificar quiénes fueron los artistas representativos del género y los organice según su importancia, desde el arranque de la década de los setenta hasta la actualidad. Sobre los artistas contemporáneos (de los 90 hasta la actualidad), la IA se olvida por completo y no se sugieren en ningún momento.
Sobre esta otra plataforma, considero un fallo grave que ha atribuido la autoría del documento a la persona que aparece acreditada como autora de la foto de la autora, a pesar de que el nombre de ésta se muestra varias veces en las primeras páginas del archivo, incluido el encabezado del grueso del ejemplar.
A pesar de todas las facilidades y posibilidades que ofrece la IA generativa para evitar tener que leer un escrito interminable, sobra decir que esto es un fallo muy grave, del cual se puede sacar una conclusión clara: aunque ambas herramientas pueden solucionar ciertas tareas, conviene no andar muy lejos para vigilar que realmente están haciendo el trabajo que se les pide.
¿Deberías usar los podcast de IA de Google?
Y esta es la conclusión principal a la que puedo llegar según he ido observando el comportamiento de la inteligencia artificial generativa de comentarios de voz que hoy puede solucionarle la vida a cualquiera que valore su tiempo personal.
¿La utilizaría para estudiar y aprender más sobre un tema sin tener que leer un informe interminable? Sin ninguna duda, porque es una solución mucho más atractiva que un documento de cientos de páginas o un resumen de otras tantas fuentes. Sin embargo, lo haría con cautela, con el objetivo de hacerme una idea de un tema en concreto y a sabiendas de que solo ofrece una perspectiva general sobre él.
Además, de las dos, entre NotebookLM y Deep Research de Gemini me quedo con la segunda y no solo porque tiene su propia aplicación, lo que facilita no tener que recurrir a la web. También porque recoge información más actualizada y mejor ordenada que la otra plataforma.
