💡 Resumen (TL;DR):
- Google presentó Gemini Embedding 2, capaz de procesar texto, imágenes, video, audio y documentos en un solo espacio.
- El modelo genera vectores de 3,072 dimensiones y soporta hasta 8,192 tokens o videos de 120 segundos por solicitud.
- Permite crear sistemas de búsqueda cruzada sin necesidad de mantener procesos separados para cada formato multimedia.
Google presentó este lunes Gemini Embedding 2, su primer modelo de inteligencia artificial capaz de unificar texto, imágenes, video, audio y documentos en un mismo espacio de procesamiento. La herramienta ya está disponible en versión preliminar pública a través de la Gemini API y Vertex AI, diseñada para que los desarrolladores construyan sistemas de clasificación cruzando diferentes formatos de archivo simultáneamente.
Un embedding model es un sistema algorítmico que convierte datos en vectores numéricos para capturar su significado semántico, facilitando tareas como la búsqueda y recuperación de información.
Mientras las versiones anteriores de Google solo leían texto, esta actualización procesa cinco tipos de entrada. Por defecto, genera vectores de 3,072 dimensiones. Sin embargo, utiliza una técnica llamada Matryoshka Representation Learning que permite a los desarrolladores reducir la salida a 1,536 o 768 dimensiones para optimizar el rendimiento y el almacenamiento.

Capacidades técnicas y límites de formato
El sistema procesa información de manera nativa sin requerir transcripciones previas, una ventaja notable en el caso del audio.
En cuanto a sus límites técnicos por cada solicitud, la herramienta soporta:
* Hasta 8,192 tokens de texto.
* Un máximo de seis imágenes en formato PNG o JPEG.
* Clips de video de hasta 120 segundos (MP4 o MOV).
* Documentos PDF directos de hasta seis páginas de longitud.
Además, admite entradas intercaladas. Esto significa que un usuario puede enviar múltiples modalidades en una sola petición, como una imagen emparejada con texto descriptivo, para ejecutar búsquedas mucho más precisas.
“Gemini Embedding 2 mapea texto, imágenes, videos, audio y documentos en un espacio de incrustación único y unificado, y captura la intención semántica en más de 100 idiomas”, explicó Google en el blog oficial del anuncio.
El modelo, identificado técnicamente como gemini-embedding-2-preview, tiene una fecha de corte de conocimiento de noviembre de 2025. Su arquitectura está orientada a optimizar tareas complejas como el Retrieval-Augmented Generation (RAG), la búsqueda semántica y la agrupación de datos.
Sobre su rendimiento frente a la competencia, la compañía afirmó que el sistema “establece un nuevo estándar de rendimiento para la profundidad multimodal, introduciendo fuertes capacidades de voz y superando a los modelos líderes en tareas de texto, imagen y video”. Por último, los desarrolladores pueden inyectar instrucciones personalizadas para adaptar la herramienta a casos de uso específicos como la recuperación de código.