Acceder al contenido

Gemini 2.5: Seguimos mejorando nuestros modelos más inteligentes

[]

Gemini 2.5: Seguimos mejorando nuestros modelos más inteligentes

Gemini 2.5 Pro sigue siendo el elegido por los desarrolladores como el mejor modelo para programar, y 2.5 Flash está avanzando aún más con una nueva actualización. También estamos sumando capacidades a nuestros modelos, como Deep Think, un modo experimental de razonamiento mejorado para 2.5 pro

tulsee-doshi-square

Tulsee Doshi

Directora Senior, Gestión de Producto, Equipo de Gemini

En marzo anunciamos Gemini 2.5 Pro, nuestro modelo más inteligente hasta el momento, y hace dos semanas presentamos nuestra actualización anticipada de I/O para que los desarrolladores creen apps sorprendentes. Hoy traemos aún más actualizaciones para nuestra serie de modelos Gemini 2.5:

Más allá del increíble rendimiento del 2.5 Pro en comparativas académicas, ahora es el modelo líder mundial en los rankings WebDev Arena y LMArena, y también ayudar a las personas a aprender.
Presentamos nuevas capacidades de los modelos 2.5 Pro y 2.5 Flash: salida de audio nativo para una experiencia de conversación más natural, medidas de seguridad avanzadas y la habilidad de Project Mariner para usar computadoras. 2.5 Pro mejorará aún más con Deep Think, un modo experimental de razonamiento optimizado para matemática y programación de alta complejidad.
Seguimos invirtiendo en la experiencia para desarrolladores, introduciendo resúmenes de pensamiento en la API de Gemini y en Vertex AI para aumentar la transparencia, extendiendo los presupuestos de pensamiento en 2.5 Pro para mayor control y agregando compatibilidad con herramientas MCP en la API de Gemeni y SDK para obtener acceso a más herramientas de código abierto.
2.5 Flash ahora está disponible para todas las personas en la app de Gemini, y a principios de junio nuestra versión actualizada entrará en disponibilidad general en Google AI Studio para desarrolladores y en Vertex AI para empresas. Poco tiempo después será el turno de la versión 2.5 Pro.

Este notable avance es el resultado del esfuerzo permanente de los equipos de Google para mejorar nuestras tecnologías y para desarrollarlas y lanzarlas de manera segura y responsable. Veamos un poco más.

2.5 Pro tiene mejor rendimiento que nunca

Recientemente actualizamos 2.5 Pro para ayudar a los desarrolladores a crear apps web interactivas más interesantes. Es fantástico ver las reacciones positivas por parte de usuarios y desarrolladores y seguiremos implementando mejoras en función de los comentarios que recibimos.

Además de su sólido rendimiento en comparativas académicas, el nuevo modelo 2.5 Pro ahora lidera el reconocido ranking de programación WebDev Arena, con una puntuación ELO de 1415. También lleva la delantera en todas las tablas de clasificación del ranking LMArena, que evalúa la preferencia de los humanos en varias dimensiones. Y con su ventana de contexto de un millón de tokens, 2.5 Pro tiene un rendimiento de vanguardia en contexto extenso y comprensión de video.

Desde la incorporación de LearnLM, nuestra familia de modelos creados con especialistas en educación, 2.5 Pro ahora es también el modelo líder de aprendizaje. En comparaciones mano a mano para evaluar su pedagogía y efectividad, educadores y expertos eligieron Gemini 2.5 Pro por sobre otros modelos en una amplia gama de escenarios. También se destacó superando a los principales modelos en cada uno de los cinco principios de las ciencias de aprendizaje utilizados para construir sistemas de IA para la enseñanza.

Conoce más en la tarjeta actualizada del modelo Gemini 2.5 Pro y en la página de tecnología de Gemini.

Deep Think

A través de la exploración de los límites de la capacidad de pensamiento de Gemini, estamos empezando a probar un modo de razonamiento mejorado llamado Deep Think. Este modo usa nuevas técnicas de investigación, lo que le permite al modelo considerar múltiples hipótesis antes de responder.

2.5 Pro Deep Think tiene una impresionante puntuación en 2025 USAMO, actualmente una de las comparativas de matemática más estrictas. También lidera en LiveCodeBench, una prueba de rendimiento difícil para la codificación a nivel de competición, y obtiene un 84.0% en MMMU, que evalúa el razonamiento multimodal.

Dado que estamos definiendo la frontera con 2.5 Pro DeepThink, nos tomaremos un tiempo adicional para realizar más evaluaciones de seguridad de vanguardia y obtener más aportes de expertos en seguridad. Como parte de esto, lo pondremos a disposición de probadores de confianza a través de la API de Gemini para recibir sus comentarios antes de lanzarlo de forma masiva.

2.5 Flash, aún mejor

2.5 Flash es nuestro más eficiente modelo diseñado para ofrecer velocidad a bajo costo, y ahora es mejor en muchas dimensiones. Está optimizado en comparativas clave para razonamiento, multimodalidad, programación y contexto extenso, al tiempo que mejora su eficiencia, usando un 20-30% menos tokens en nuestras evaluaciones.

El nuevo modelo 2.5 Flash ahora está disponible en versión preliminar en Google AI Studio para desarrolladores, en Vertex AI para empresas y en la app de Gemini para todas las personas. A principios de junio estará disponible de forma general para producción.

Conoce más en la tarjeta actualizada del modelo Gemini 2.5 Flash y en la página de tecnología de Gemini.

Nuevas capacidades de Gemini 2.5

Salida de audio nativo y mejoras a la API de Live

En la API de Live hoy introducimos una versión preliminar de diálogo con entrada audiovisual y salida de audio nativo para que puedas crear experiencias de conversación de forma directa con una versión de Gemini más natural y expresiva. También permite a los usuarios ajustar el tono, el acento y el estilo del habla. Por ejemplo, puedes pedirle al modelo que utilice una voz dramática cuando cuente una historia. Y es compatible con el uso de herramientas, para poder buscar en tu nombre.

También puedes experimentar con un conjunto de herramientas preliminares, que incluye las siguientes:

Diálogo afectivo: el modelo detecta las emociones en la voz del usuario y responde en función de ello.
Audio proactivo: el modelo ignora las conversaciones de fondo y sabe cuándo responder.
Razonamiento en la API de Live: el modelo aprovecha las capacidades de razonamiento de Gemini para poder realizar tareas más complejas.

También estamos lanzando nuevas versiones preliminares de texto a voz en 2.5 Pro y 2.5 Flash. Estas versiones tienen compatibilidad pionera con múltiples hablantes, permitiendo la función de texto a voz con dos voces a través de la salida de audio nativo. Al igual que el diálogo de audio nativo, la función de texto a voz es expresiva y puede captar matices muy sutiles, como susurros. Funciona en más de 24 idiomas y cambia de uno a otro de manera fluida.

Uso de computadoras

Estamos incorporando la capacidad de uso de computadoras de Project Mariner en la API de Gemini y en Vertex AI. Empresas como Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company y Cartwheel están explorando su potencial, y estamos ansiosos por lanzarlo de manera más amplia para que los desarrolladores puedan experimentar en los próximos meses.

Seguridad mejorada

Incrementamos de manera significativa la protección contra amenazas de seguridad, como la inyección de instrucciones indirectas (cuando instrucciones maliciosas se incorporan en los datos que recupera un modelo de IA). Nuestro nuevo enfoque de seguridad ayudó en gran medida a incrementar la tasa de protección de Gemini contra los ataques de inyección de instrucciones indirectas durante el uso de herramientas, haciendo de Gemini 2.5 nuestra familia de modelos más segura hasta el momento.

Conoce más sobre nuestro trabajo en torno a la seguridad y responsabilidad y cómo estamos mejorando las medidas de protección de Gemini en el blog de Google DeepMind.

Experiencia mejorada para desarrolladores

Resúmenes de pensamiento

2.5 Pro and Flash ahora incluirán resúmenes de pensamiento en la API de Gemini y en Vertex AI. Estos resúmenes toman los pensamientos sin procesar del modelo y los organizan en un formato claro, con encabezados, datos clave y la información sobre las acciones del modelo, como el uso de herramientas.

Esperamos que, con un formato más estructurado y organizado del proceso de pensamiento, sea más fácil para desarrolladores y usuarios comprender y depurar las interacciones con los modelos de Gemini.

Presupuestos de pensamiento

Lanzamos 2.5 Flash con presupuestos de pensamiento para brindarles a los desarrolladores la posibilidad de equilibrar latencia y calidad y, de ese modo, obtener más control sobre los costos. También estamos ampliando esta funcionalidad a 2.5 Pro. Esto permite controlar la cantidad de tokens que utiliza un modelo para pensar antes de responder, o incluso desactivar la capacidad de razonamiento.

Gemini 2.5 Pro con presupuestos estará disponible de forma general para uso en producción estable en las próximas semanas, junto con nuestro modelo en disponibilidad general.

Compatibilidad con MCP

Agregamos compatibilidad nativa con el SDK para las definiciones del Protocolo de Contexto de Modelo (MCP) en la API de Gemini para una integración más sencilla con herramientas de código abierto. También estamos explorando formas de implementar servidores MCP y otras herramientas alojadas para que te resulte más fácil crear aplicaciones con capacidad de agente.

Innovamos continuamente en nuevos enfoques para mejorar nuestros modelos y la experiencia de los desarrolladores, buscando aumentar su eficiencia y rendimiento. No dejes de enviarnos comentarios, queremos responder a ellos. También seguimos trabajando para incrementar la amplitud y profundidad de nuestra investigación fundamental, superando los límites de las capacidades de Gemini. ¡Pronto habrá más novedades!

Conoce más sobre Gemini y sus capacidades en nuestro sitio web.

Publicado en: