Google acaba de lanzar una IA que entiende texto, vídeo, imágenes y audio a la vez: así es Gemini Embedding 2

Gemini Embedding 2
Gemini Embedding 2Google

Google lanza Gemini Embedding 2, su modelo de IA multimodal en vista previa pública, capaz de analizar texto, imágenes, vídeo y audio en un único espacio de representación.

Google ha presentado un nuevo modelo de inteligencia artificial enfocado en el análisis multimodal de información. Nombrado Gemini Embedding 2, el sistema está actualmente disponible en vista previa pública, marcando un paso importante hacia el procesamiento simultáneo de texto, imágenes, vídeo y audio.

A diferencia de los modelos generativos, como Gemini 3, los modelos de embedding no se centran en crear contenido nuevo, sino en comprender y representar información. 

Para ello, convierten distintos tipos de datos en vectores matemáticos, que las máquinas pueden analizar con facilidad. Esta capacidad permite realizar tareas como búsqueda semántica, clasificación y agrupación de información, ofreciendo resultados más precisos y contextuales que los sistemas basados solo en palabras clave.

Mientras que el primer modelo de embedding de Google solo trabajaba con texto, Gemini Embedding 2 amplía el enfoque para integrar múltiples tipos de contenido dentro de un mismo espacio de representación. El modelo procesa texto, imágenes, vídeo, audio y documentos, y puede captar la intención semántica en más de 100 idiomas.

Gemini Embedding 2
Gemini Embedding 2Google

Según Google, este sistema “simplifica procesos complejos y mejora una amplia variedad de tareas multimodales posteriores, desde generación aumentada por recuperación y búsqueda semántica hasta análisis de sentimientos y agrupación de datos”. Además, permite analizar relaciones entre diferentes tipos de contenido, procesando solicitudes que incluyan simultáneamente texto e imágenes, lo que facilita un análisis combinado de la información.

Entre los posibles usos, Google destaca el ámbito legal: durante procesos de descubrimiento, los profesionales podrían emplear Gemini Embedding 2 para localizar información crítica entre millones de registros de manera más eficiente.

El modelo está disponible en vista previa pública a través de la Gemini API y Vertex AI.

Más información sobre: