Acesse o menu principal

Blog do Google Brasil

Apresentamos o Gemini 2.0: nosso novo modelo para a era dos agentes de IA

[]

Apresentamos o Gemini 2.0: nosso novo modelo para a era dos agentes de IA

11 Dez, 2024

Sundar Pichai

CEO of Google and Alphabet

Demis_headshot

Demis Hassabis

CEO of Google DeepMind

koray

Koray Kavukcuoglu

CTO of Google DeepMind

Ilustração com a escrita Gemini 2.0

Uma mensagem de Sundar Pichai, CEO do Google e Alphabet:

A informação é o que impulsiona o progresso dos seres humanos. Por isso, há mais de 26 anos, nos dedicamos à missão de organizar as informações do mundo inteiro para que sejam mais acessíveis e úteis. É esse compromisso que nos leva a explorar os limites da Inteligência Artificial (IA) para organizar as informações de maneiras inovadoras e entregá-las nos formatos mais práticos e relevantes para você.

Foi essa visão que nos guiou no lançamento do Gemini 1.0, em dezembro do ano passado. Projetado como o primeiro modelo nativamente multimodal, o Gemini 1.0 — junto com o 1.5 — representou um grande avanço na capacidade de compreender informações em texto, vídeo, imagens, áudio e código, além de processar volumes muito maiores de dados, graças à combinação de multimodalidade e contexto expandido.

Hoje, milhões de desenvolvedores estão criando soluções com o Gemini, que está ajudando a transformar todos os nossos produtos — incluindo os 7 principais, cada um com mais de 2 bilhões de usuários — e a inspirar novas inovações. Um exemplo marcante é o NotebookLM, que mostra como a multimodalidade e o contexto ampliado podem impactar positivamente a vida das pessoas, conquistando tantos admiradores.

No último ano, temos focado no desenvolvimento de modelos ainda mais “proativos", ou seja, capazes de entender melhor o mundo ao seu redor, pensar vários passos à frente e agir por você, sempre com a sua supervisão.

Agora, é com muita satisfação que apresentamos a próxima etapa dessa evolução: o Gemini 2.0, o modelo mais avançado que já desenvolvemos. Entre seus novos recursos em multimodalidade estão a geração nativa de imagens e áudio, além do uso integrado de ferramentas, abrindo caminho para agentes de IA ainda mais sofisticados, que nos aproximam do objetivo de criar um assistente universal.

Hoje, o Gemini 2.0 já está disponível para desenvolvedores e parceiros de confiança. Nosso foco é integrá-lo rapidamente aos nossos produtos, começando pela plataforma Gemini e pela Busca. A partir de agora, o modelo experimental Gemini 2.0 Flash está acessível a todos os usuários do Gemini. Além disso, uma nova funcionalidade chamada Deep Research foi lançada. Ela utiliza raciocínio avançado e contexto expandido para atuar como um assistente de pesquisa, capaz de explorar temas complexos e criar relatórios detalhados. Essa ferramenta já está disponível para o Gemini Advanced.

Nenhum produto mudou tanto com a Inteligência Artificial quanto a Busca do Google. As Visões Gerais criadas por IA já chegam a 1 bilhão de pessoas, abrindo espaço para novos tipos de perguntas — e rapidamente se tornando uma das funcionalidades mais populares da Busca. O próximo passo é levar as capacidades de raciocínio avançado do Gemini 2.0 para as Visões Gerais criadas por IA, para abordar temas mais complexos e questões de várias etapas, como equações matemáticas avançadas, consultas multimodais e programação. Os primeiros testes já começaram, e o lançamento mais abrangente está previsto para o início de 2025. Além disso, vamos continuar a expandir as Visões Gerais para mais países e idiomas ao longo do próximo ano.

Os avanços do Gemini 2.0 são resultado de mais de uma década de investimentos na nossa abordagem integrada e única para inovação em IA. O modelo foi desenvolvido com hardware personalizado, incluindo o Trillium, a sexta geração das nossas TPUs, que alimentaram todo o treinamento e processamento do Gemini 2.0. E agora, o Trillium está disponível para clientes que desejam criar suas próprias soluções com essa tecnologia.

O Gemini 1.0 representou um avanço importante na forma como organizamos e entendemos informações. Com o Gemini 2.0, avançamos ainda mais, tornando essas informações mais úteis e impactantes. Mal posso esperar para ver tudo o que essa nova era pode trazer.

— Sundar

Apresentando o Gemini 2.0

Por Demis Hassabis, CEO da Google DeepMind, e Koray Kavukcuoglu, CTO da Google DeepMind, em nome da equipe do Gemini

No último ano, alcançamos avanços extraordinários na inteligência artificial. Hoje, estamos lançando o primeiro modelo da família de modelos Gemini 2.0: uma versão experimental do Gemini 2.0 Flash. Trata-se do nosso modelo mais ágil e eficiente até agora, projetado para oferecer baixa latência e desempenho de ponta em larga escala.

Também estamos explorando novas fronteiras na pesquisa de agentes de IA, com protótipos que aproveitam as capacidades multimodais nativas do Gemini 2.0.

Gemini 2.0 Flash

O Gemini 2.0 Flash é uma evolução do 1.5 Flash, nosso modelo mais popular entre desenvolvedores. A nova versão oferece desempenho ainda mais robusto e, em muitos casos, supera o 1.5 Pro em padrões de desempenho importantes, mantendo o dobro de velocidade. Entre os novos recursos, estão o suporte a entradas multimodais, como imagens, vídeos e áudio, além da geração de saídas multimodais, incluindo imagens nativas combinadas com texto e áudio multilíngue ajustável por meio de texto-para-fala (TTS).

Tabela que mostra comparações entre os modelos Gemini

Nosso objetivo é disponibilizar os modelos de maneira segura e rápida. No último mês, compartilhamos versões experimentais do Gemini 2.0 com desenvolvedores e recebemos um retorno muito positivo.

O Gemini 2.0 Flash já está disponível como modelo experimental para desenvolvedores na API do Gemini no Google AI Studio e Vertex AI com entrada multimodal e saída em texto disponíveis para todos os desenvolvedores, enquanto os recursos de áudio gerado por texto-para-fala e geração nativa de imagens permanecem disponíveis para parceiros com acesso antecipado. A disponibilidade geral está planejada para janeiro, junto com novas opções de tamanhos de modelo.

Para ajudar os desenvolvedores a criar aplicativos dinâmicos e interativos, estamos lançando o API Multimodal Live. Esse recurso permite entrada de áudio em tempo real, streaming de vídeo e a utilização de várias ferramentas combinadas. Mais informações sobre o Gemini 2.0 Flash e a Multimodal Live API estão disponíveis no nosso blog de desenvolvedores.

Gemini 2.0 no aplicativo Gemini, nosso assistente de IA

A partir de hoje, os usuários do Gemini do mundo inteiro poderão acessar a versão otimizada para chat do 2.0 Flash Experimental. Basta escolher essa opção no menu de modelos, disponível para computadores e dispositivos móveis. Em breve, a mesma versão estará disponível no aplicativo do Gemini, proporcionando uma experiência ainda mais útil e aprimorada com o assistente.

No início do próximo ano, o Gemini 2.0 será integrado a mais produtos do Google.

Explorando experiências de agentes de IA com o Gemini 2.0

As capacidades avançadas do Gemini 2.0 Flash, como raciocínio multimodal, compreensão de contextos amplos, execução de instruções complexas, uso nativo de ferramentas e baixa latência, trabalham juntas para inaugurar uma nova classe de experiências de agentes.

A aplicação prática de sistemas de agentes de IA é uma área de pesquisa repleta de possibilidades animadoras. Estamos explorando esse novo território com uma série de protótipos que ajudam as pessoas a realizar tarefas e alcançar objetivos. Entre eles, está a atualização do Projeto Astra, um protótipo de pesquisa que investiga as futuras capacidades de um assistente de IA universal; o novo Projeto Mariner, que explora o futuro da interação entre humanos e sistemas, começando pelo navegador; e o Jules, um agente de código baseado em IA projetado para auxiliar desenvolvedores.

Ainda estamos nas etapas iniciais de desenvolvimento, mas estamos animados para ver como nosso seleto grupo de parceiros vai utilizar essas novas capacidades e quais lições poderemos tirar dessa experiência, para que esses recursos sejam disponibilizados de forma mais ampla em produtos no futuro.

Project Astra: compreensão multimodal no mundo real

Desde que apresentamos o Projeto Astra no Google I/O, estamos aprendendo muito com os parceiros de confiança que utilizam o Projeto Astra em dispositivos Android. O feedback valioso que recebemos tem nos ajudado a entender melhor como um assistente de IA universal pode funcionar na prática, incluindo as implicações de segurança e ética. As melhorias na versão mais recente, desenvolvida com o Gemini 2.0, incluem:

Diálogos melhores: o Projeto Astra agora pode conversar em vários idiomas e até alternar entre eles em uma única interação, com uma compreensão aprimorada de sotaques e palavras incomuns.
Novas ferramentas: com o Gemini 2.0, o Projeto Astra passou a integrar o Google Pesquisa, Lens e Maps, tornando-se ainda mais útil como assistente no dia a dia.
Memória aprimorada: a capacidade de lembrar informações foi melhorada, sempre mantendo o controle nas mãos do usuário. Agora, o Astra pode reter até 10 minutos de memória durante uma sessão e lembrar mais conversas anteriores, oferecendo uma experiência ainda mais personalizada.
Latência reduzida: graças às novas capacidades de streaming e à compreensão nativa de áudio, o sistema consegue entender e responder à linguagem com uma latência próxima à de uma conversa humana.

Estamos trabalhando para levar essas funcionalidades a produtos do Google, como o aplicativo Gemini, nosso assistente de IA, e para outros formatos, como óculos inteligentes. Além disso, estamos ampliando o programa de parceiros de confiança para incluir um grupo inicial que, em breve, começará a testar o Projeto Astra em protótipos de óculos.

Project Mariner: uma ajuda na execução de tarefas complexas

O Project Mariner é um protótipo inicial de pesquisa construído com o Gemini 2.0 que explora o futuro da interação humano-agente, começando pelo seu navegador. Como protótipo de pesquisa, ele é capaz de compreender e processar informações na tela do seu navegador, incluindo pixels e elementos web como texto, código de programação, imagens e formulários, e então utiliza essas informações através de uma extensão experimental do Chrome para realizar tarefas para você.

Quando avaliado no benchmark WebVoyager, que testa o desempenho do agente em tarefas web do mundo real de ponta a ponta, o Project Mariner alcançou um resultado estado da arte de 83,5% operando como um agente único.

Ainda estamos no início, mas o Project Mariner já demonstra que está se tornando tecnicamente possível navegar em um navegador, mesmo que hoje nem sempre seja preciso e lento para completar tarefas - algo que vai melhorar rapidamente com o tempo.

Para desenvolver isso de forma segura e responsável, estamos realizando pesquisas ativas sobre novos tipos de riscos e mitigações, mantendo sempre os seres humanos no processo. Por exemplo, o Project Mariner só pode digitar, rolar ou clicar na aba ativa do seu navegador e solicita confirmação final dos usuários antes de realizar certas ações sensíveis, como fazer uma compra.

Os testadores de confiança já começaram a testar o Project Mariner ao usar uma extensão experimental do Chrome, e estamos iniciando conversas com o ecossistema web em paralelo.

Jules: o agente para os desenvolvedores

Logo, vamos explorar como os agentes de IA podem auxiliar desenvolvedores com o Jules - um agente de programação experimental alimentado por IA que se integra diretamente ao fluxo de trabalho do GitHub. Ele pode abordar um problema, desenvolver um plano e executá-lo, tudo sob direção e supervisão do desenvolvedor. Este esforço faz parte de nosso objetivo de longo prazo de construir agentes de IA úteis em todos os domínios, incluindo programação.

Mais informações sobre este experimento em andamento podem ser encontradas em nossa postagem noblog de desenvolvedores.

Agentes usados em jogos e outros domínios

O Google DeepMind tem uma longa história no uso de jogos para aprimorar modelos de IA em seguir regras, planejamento e lógica. Na semana passada, por exemplo, apresentamos o Genie 2, o nosso modelo de IA que pode criar uma variedade infinita de mundos 3D jogáveis - tudo a partir de uma única imagem. Seguindo esta tradição, desenvolvemos agentes usando o Gemini 2.0 que podem ajudar você a navegar no mundo virtual dos videogames. O sistema pode analisar o jogo se baseando apenas na ação na tela e oferecer sugestões em tempo real durante a conversa.

Estamos em colaboração com desenvolvedores líderes como a Supercell para explorar como esses agentes funcionam, testando sua capacidade de interpretar regras e desafios em diversos tipos de jogos, desde títulos de estratégia como "Clash of Clans" até simuladores de fazenda como "Hay Day".

Além de atuarem como companheiros virtuais de jogo, estes agentes podem até acessar o Google Pesquisa para conectar você ao vasto conhecimento sobre jogos na web.

Além de explorar capacidade de agentes de IA no mundo virtual, estamos experimentando com agentes que podem ajudar no mundo físico, aplicando as capacidades de raciocínio espacial do Gemini 2.0 à robótica. Embora ainda estejamos no início, estamos empolgados com o potencial de agentes que podem auxiliar no ambiente físico.

Você pode saber mais sobre estes protótipos e experimentos de pesquisa em labs.google.

Construindo com responsabilidade na era dos agentes

O Gemini 2.0 Flash e nossos protótipos de pesquisa nos permitem testar e iterar sobre novos recursos na vanguarda da pesquisa em IA que eventualmente tornarão os produtos Google mais úteis.

Ao desenvolver estas novas tecnologias, reconhecemos a responsabilidade que isso implica e as várias questões que os agentes de IA levantam sobre segurança e proteção. Por isso, estamos adotando uma abordagem exploratória e gradual no desenvolvimento, realizando pesquisas em múltiplos protótipos, frequentemente implantando treinamento sobre segurança, trabalhando com testadores de confiança e especialistas externos, e realizando extensivas avaliações de risco, segurança e garantia.

Por exemplo:

Como parte de nosso processo de segurança, trabalhamos com nosso Comitê de Responsabilidade e Segurança (RSC em inglês), nosso grupo interno de revisão de longa data, para identificar e compreender riscos potenciais.
As capacidades de raciocínio do Gemini 2.0 permitiram grandes avanços em nossa abordagem de red teaming assistida por IA, incluindo a capacidade de ir além da simples detecção de riscos para agora automaticamente gerar avaliações e treinamento para mitigá-los. Isso significa que podemos otimizar o modelo para segurança em escala de forma mais eficiente.
Com a multimodalidade do Gemini 2.0 aumentando a complexidade das saídas potenciais, continuaremos avaliando e treinando a saída do modelo, como imagem e áudio, para nos ajudar a melhorar a segurança.
No Project Astra, estamos explorando potenciais mitigações contra compartilhamento não intencional de informações sensíveis, e já incorporamos controles de privacidade que facilitam a exclusão de sessões pelos usuários. Também continuamos pesquisando maneiras de garantir que os agentes de IA atuem como fontes confiáveis de informação e não realizem ações não intencionais em seu nome.
No Project Mariner, estamos trabalhando para garantir que o modelo aprenda a priorizar instruções do usuário sobre tentativas de injeção de prompt de terceiros, identificando instruções potencialmente maliciosas de fontes externas e prevenindo uso indevido. Isso protege os usuários contra tentativas de fraude e phishing através de instruções maliciosas ocultas em e-mails, documentos ou sites.

Acreditamos firmemente que a única maneira de construir IA é ser responsável desde o início e continuaremos priorizando a segurança e responsabilidade como elementos-chave de nosso processo de desenvolvimento de modelos enquanto avançamos com nossos modelos e agentes.

Gemini 2.0, agentes de IA e além

Os lançamentos de hoje marcam um novo capítulo para nosso modelo Gemini. Com o lançamento do Gemini 2.0 Flash e a série de protótipos de pesquisa que exploram possibilidades agênticas, alcançamos um marco empolgante na era Gemini. E estamos ansiosos para continuar explorando com segurança todas as novas possibilidades ao nosso alcance enquanto construímos em direção à AGI.

Publicado em: