Gemini inova com modelo mais rápido, contexto mais amplo e agentes de IA
Em dezembro, lançamos nosso primeiro modelo nativamente multimodal, o Gemini 1.0, em três tamanhos: Ultra, Pro e Nano. Apenas alguns meses depois, lançamos o 1.5 Pro , com desempenho aprimorado e uma janela de contexto mais ampla e inovadora de 1 milhão de tokens.
Desenvolvedores e clientes corporativos têm colocado o 1.5 Pro em uso de diferentes maneiras [inserir link para vídeo de caso de uso do 1.5 Pro] e achado incrivelmente úteis sua ampla janela de contexto, recursos de raciocínio multimodal e desempenho geral.
Sabemos, pelo feedback dos usuários, que alguns aplicativos precisam de menor latência e menor custo para ser efetivo e isso nos inspirou a continuar inovando. Por isso, hoje estamos apresentando o Gemini 1.5 Flash: um modelo mais leve que o 1.5 Pro e projetado para ser rápido e eficiente para servir em grande escala.
Tanto o 1.5 Pro quanto o 1.5 Flash estão disponíveis, em pré-visualização pública, com uma janela de contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Uma janela de contexto de 2 milhões de tokens já está disponível para desenvolvedores que usam API e para clientes do Google Cloud, por meio de uma lista de espera. E estamos integrando o 1.5 Pro aos produtos do Google, incluindo o Gemini Advanced e os aplicativos Workspace .
Também estamos anunciando nossa próxima geração de modelos abertos, Gemma 2 , e compartilhando o progresso sobre o futuro dos assistentes de IA a partir do Projeto Astra.
Comprimentos de contexto dos principais modelos básicos em comparação com a capacidade de 2 milhões de tokens do Gemini 1.5
Atualizações em nossa família de modelos Gemini
1.5 Flash: Um modelo mais rápido e eficiente
1.5 Flash é a mais nova adição à família Gemini e o modelo mais rápido servido na API . Ele é otimizado para tarefas de alto volume e alta frequência em escala, é mais econômico para atender e apresenta nossa inovadora janela de amplo contexto.
Embora seja um modelo mais leve que o 1.5 Pro, ele é altamente capaz de realizar o raciocínio multimodal em grandes quantidades de informações, além de oferecer uma qualidade impressionante para seu tamanho. O 1.5 Flash é excelente em resumos, aplicativos de bate-papo, legendagem de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais. Isso ocorre porque ele foi treinado pelo 1.5 Pro por meio de um processo chamado “destilação”, no qual o conhecimento e as habilidades mais essenciais de um modelo maior são transferidos para um modelo menor e mais eficiente.
Leia mais sobre o 1.5 Flash em nosso relatório técnico atualizado do Gemini 1.5 e na página de tecnologia do Gemini e saiba mais sobre a disponibilidade e os preços do 1.5 Flash .
Um 1.5 Pro ainda mais útil
Nos últimos meses, melhoramos significativamente o 1.5 Pro, nosso melhor modelo para desempenho geral em uma ampla gama de tarefas. Além de estender sua janela de contexto para 2 milhões de tokens, aprimoramos sua geração de código, raciocínio lógico e planejamento, conversação de múltiplas etapas e compreensão de áudio e imagem por meio de dados e melhorias algorítmicas.
A versão mais recente do 1.5 Pro alcança fortes melhorias em benchmarks públicos em vários domínios, como raciocínio e codificação, bem como desempenho de última geração em vários estudos de compreensão de imagem e vídeo, incluindo: MMMU , AI2D , MathVista , ChartQA , DocVQA , InfográficoVQA e EgoSchema .
O 1.5 Pro agora pode seguir instruções cada vez mais complexas e diferenciadas, incluindo aquelas que especificam o comportamento em relação a produto envolvendo função, formato e estilo. Melhoramos o controle sobre as respostas para casos de uso específicos, como criar a persona e o estilo de resposta de um agente de chat, ou automatizar fluxos de trabalho por meio de múltiplas chamadas de função. Além disso, permitimos que os usuários orientem o comportamento do modelo definindo instruções do sistema .
Também adicionamos compreensão de áudio na API Gemini e no Google AI Studio, de modo que o 1.5 Pro agora pode raciocinar entre imagem e áudio para vídeos enviados no Google AI Studio.
Leia mais sobre o 1.5 Pro em nosso relatório técnico atualizado do Gemini 1.5 e na página de tecnologia Gemini .
Atualizações do Gemini Nano, nosso modelo no dispositivo
O Gemini Nano está expandindo além de entradas apenas de texto para incluir também imagens. Começando com o Pixel, aplicativos que utilizam o Gemini Nano com multimodalidade serão capazes de compreender o mundo da mesma forma que as pessoas fazem — não apenas por meio de entrada de texto, mas também através de visão, som e linguagem falada.
Leia mais sobre o Gemini 1.0 Nano no Android .
A próxima geração de modelos abertos
Hoje, também estamos compartilhando uma série de atualizações do Gemma , nossa família de modelos abertos construídos a partir da mesma pesquisa e tecnologia usada para criar os modelos Gemini.
Estamos anunciando o Gemma 2 , nossa próxima geração de modelos abertos para inovação responsável em IA. A novidade possui uma nova arquitetura projetada para desempenho e eficiência inovadoras e estará disponível em novos tamanhos.
A família Gemma também está se expandindo com o PaliGemma , nosso primeiro modelo de linguagem de visão inspirado no PaLI-3 . Além disso, atualizamos nosso Responsible Generative AI Toolkit com LLM Comparator para avaliar a qualidade das respostas do modelo.
Leia mais no blog do desenvolvedor.
Nosso progresso no futuro dos assistentes de IA
Como parte da missão do Google DeepMind de construir IA de forma responsável para beneficiar a humanidade, sempre buscamos desenvolver agentes universais de IA que pudessem ser úteis na vida cotidiana. É por isso que hoje estamos compartilhando o Projeto Astra: nossa visão para o futuro dos assistentes de IA.
Para ser verdadeiramente útil, um agente precisa compreender e responder ao mundo complexo e dinâmico, tal como as pessoas fazem – e absorver e lembrar o que vê e ouve para compreender o contexto e agir. Ele também precisa ser proativo e pessoal, para que os usuários possam conversar com ele naturalmente e sem atrasos.
Embora tenhamos feito um progresso incrível no desenvolvimento de sistemas de IA que podem compreender informações multimodais, reduzir o tempo de resposta a algo coloquial é um difícil desafio de engenharia. Nos últimos anos, temos trabalhado para melhorar a forma como nossos modelos percebem, raciocinam e conversam para tornar o ritmo e a qualidade da interação mais naturais.
Esses agentes foram construídos em nosso modelo Gemini e em outros modelos específicos de tarefas, e foram projetados para processar informações mais rapidamente, codificando continuamente frames de vídeos, combinando a entrada de vídeo e fala em uma linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente.
Ao aproveitar nossos principais modelos de fala, também melhoramos a forma como eles soam, proporcionando aos agentes uma gama mais ampla de entonações. Esses agentes podem entender melhor o contexto em que estão sendo usados e responder rapidamente na conversa.
É fácil imaginar um futuro onde você poderá ter um assistente especializado ao seu lado por meio do telefone ou dos óculos. E alguns desses recursos chegarão aos produtos do Google, como o aplicativo Gemini , ainda este ano.
Sempre inovando
Fizemos um progresso incrível até agora com a nossa família de modelos Gemini e estamos sempre nos esforçando para avançar ainda mais com o que há de mais moderno. Ao investir em uma linha de produção incansável de inovação, somos capazes de explorar novas ideias na fronteira, ao mesmo tempo que desbloqueamos a possibilidade de novos e empolgantes casos de uso do Gemini.
Saiba mais sobre o Gemini e suas capacidades.