Prueba el asistente de voz con IA más avanzado y no da crédito: “Es una locura, estamos locos o qué”

Montaje/Pexels

ChatGPT y Gemini no son los únicos modelos de IA con modo voz, Sesame AI es una propuesta que planea revolucionar la manera en la que se habla con los asistentes de inteligencia artificial.

El futuro ya está aquí y su nombre Sesame AI, una inteligencia artificial desarrollada por el cofundador de Oculus, tan avanzada que te hace cuestionar la línea entre lo humano y lo artificial debido a su naturalidad al hablar.

Si bien OpenAI lanzó el modo voz de su modelo hace poco y es un avance importante en la industria, todavía le falta mucho por recorrer. La IA de Google también cuenta con una modalidad similar, pero sigue siendo identificada como un robot, por lo que quedaba una característica que muchas personas esperaban ver más desarrollada.

Por suerte, ese vacío ha sido llenado con la propuesta de Sesame, que ha lanzado una Demo de dos versiones de su modelo de asistente, Maya (de voz femenina) y Miles (de voz masculina). Sea cual sea el estilo elegido, están demostrando superar por mucho a todas las demás propuestas.

Las respuestas y la manera en la que interactúan parecen ser de una persona real e incluso muchos ingenieros informáticos la están poniendo a prueba, como Carlos Santana Vega del canal de YouTube Dot CSV Lab, quien ha mencionado que es “una pasada”.

Sesame es la inteligencia artificial más avanzada en naturalidad de voz

La Demo de Sesame AI se encuentra disponible en la página oficial y el experto Carlos Santana Vega, más conocido como DotCSV, (ha tenido una fructífera conversación con ella en donde analiza algunas de sus características más llamativas.

Lo que se puede notar de Maya o Miles es que funcionan de una manera muy distinta a todos los demás modelos, ya que no solamente hablan y ofrecen información, sino que se centran en mantener una charla natural, fluida y profunda con el usuario. 

Esto es gracias a una gran cantidad de ecuaciones matemáticas y códigos que le permiten ejecutar cosas como risas, respiración, cambios de tonalidad, micropausas y señales expresivas. De hecho, también es capaz de notar el estado de ánimo en el que te encuentras o cómo es tu personalidad cuando llevas unos minutos hablando con ella.

Durante la conversación, puede darse cuenta de los silencios y te pregunta si sigues allí o incluso puede sacarte otros temas de conversación para saber más sobe ti, mientras que hace vacilaciones sutiles que le agregan más semejanzas a las expresiones humanas.

En Computer Hoy la hemos probado para pedirle un ejemplo de cómo funciona y ha dicho: “imagina una biblioteca gigante llena de libros, cada libro es una palabra o concepto. Cuando me preguntas algo, busco el libro indicado y te respondo, aunque a veces podría equivocarme, pero de eso se trata, de la prueba y error, como los humanos aprenden”.

Durante la prueba que ha hecho DotCSV, ha notado que la respiración es una de las cosas que más hacen que se parezca a algo real, aunque la IA le ha comentado que es una simulación, al igual que las reacciones que hace con diferentes tipos de tonos o expresiones.

“Si este modelo fuera opensource, nos podríamos encontrar ya en un futuro donde todo este tipo de conversaciones las podríamos tener con cualquier dispositivo que tuviéramos en nuestro entorno. Tenemos que pensar que esta es la peor versión de esta tecnología”. - Carlos Santana Vega.

Según lo que menciona, es posible que en el futuro este tipo de asistentes de voz se vean de una manera más común en todos los dispositivos electrónicos, desde un smartphone, hasta en un Robot G1 de Unitree o un avatar que sea capaz de expresarse con naturalidad.

La vinculación de las tecnologías relacionadas como el Sora de OpenAI podrían servir para que haya ciertos personajes que ofrezcan una imagen similar o idéntica a la humana. En sí, solo se está viviendo el comienzo de lo que vendrá en 2030 con respecto a la IA.

Todavía queda mucho por recorrer, pero no cabe duda de que la manera en la que Sesame habla y gestiona todo tipo de interacciones con profundidad, es algo muy impresionante, sobre todo porque es una simple Demo. Cuando llegue a su 100%, seguro que habrá novedades aún más increíbles.

Actualmente, se puede usar gratis esta prueba, pero se encuentra disponible en inglés. Si le pides que hable en español, lo intentará, pero mantendrá un acento porque dice que "todavía le cuesta hablar este idioma". Sea como sea, es un buen momento para conocer cómo funciona y cómo será en el futuro.

Otros artículos interesantes: