Google presenta Gemini 3, su IA multimodal para texto, imagen y vídeo
Google lanzó Gemini 3, un modelo multimodal que procesa texto, imágenes, audio y vídeo y promete nuevas experiencias interactivas.
Google presentó hoy Gemini 3, su nuevo modelo de inteligencia artificial multimodal capaz de procesar texto, imágenes, audio y vídeo al mismo tiempo. La empresa dijo que es su herramienta más avanzada y que permitirá experiencias interactivas y de razonamiento complejo para usuarios y desarrolladores.
Gemini 3 y capacidades multimodales
La compañía informó que la app Gemini tiene 650 millones de usuarios mensuales y que más de 2.000 millones acceden a capacidades de Gemini a través del buscador. Sundar Pichai, CEO de Google y Alphabet, afirmó que el modelo comprende “profundidad y matices” y que ahora la IA puede “leer el ambiente”, no solo texto e imágenes.
El lanzamiento incluye varias opciones: Gemini 3 Pro, disponible desde el primer día; Gemini 3 Deep Think, que llegará para suscriptores de Google AI Ultra; y herramientas integradas en AI Mode, AI Studio, Vertex AI y la nueva plataforma de agentes Google Antigravity. Google también anunció un año gratuito de Google AI Pro para estudiantes universitarios de Estados Unidos.
Rendimiento y pruebas públicas
Gemini 3 Pro obtuvo 1.501 puntos en la clasificación de LMArena, 50 ELO por encima de la generación anterior, según la compañía. En pruebas específicas, alcanzó 91,9% en GPQA Diamond y 81% en MMMU-Pro para tareas multimodales. La empresa tech destacó además avances en matemáticas y en evaluaciones de razonamiento, y aseguró que el modelo produce visualizaciones y código con mayor fidelidad.
Expertos externos suelen pedir más datos sobre metodologías y acceso a benchmarks para verificar estas afirmaciones. En tanto, Google publicó ejemplos y demos que muestran desde visualizaciones científicas complejas hasta generación de contenido creativo.
Para desarrolladores, Google promete API y entornos en AI Studio y Vertex AI con soporte para las nuevas capacidades de codificación y visualización. Para usuarios, la integración en Búsqueda y la app Gemini apunta a ofrecer respuestas más interactivas y contextualizadas. Google informó que Gemini 3 ya opera en 30 idiomas adicionales en la versión preliminar.