Acesse o menu principal
Blog do Google Brasil

Nosso modelo de próxima geração: Gemini 1.5

Gemini 1.5
Gemini 1.5 oferece novas posibilidades

Uma nota do CEO do Google e da Alphabet, Sundar Pichai

Na semana passada, lançamos nosso modelo mais eficiente, o Gemini 1.0 Ultra, e demos um passo significativo para tornar os produtos do Google mais úteis, começando com o Gemini Advanced. Hoje, os desenvolvedores e clientes do Google Cloud também podem começar a criar com o 1.0 Ultra, por meio da nossa API Gemini no AI Studio e no Vertex AI.

Nossas equipes continuam expandindo as fronteiras de nossos modelos mais recentes com segurança em primeiro lugar. Eles estão fazendo progressos rápidos. Na verdade, estamos prontos para apresentar a próxima geração: o Gemini 1.5. Ele mostra melhorias drásticas em diversas dimensões e o 1.5 Pro alcança qualidade comparável ao 1.0 Ultra, usando menos computação.

Esta nova geração também oferece um avanço na compreensão de contextos longos. Conseguimos aumentar significativamente a quantidade de informações que nossos modelos podem processar — ​​executando até 1 milhão de tokens de forma consistente, alcançando a janela de contexto mais longa de qualquer modelo de base de grande escala até agora.

Janelas de contexto mais longas mostram-nos a promessa do que é possível. Elas permitirão recursos totalmente novos e ajudarão os desenvolvedores a criar modelos e aplicativos muito mais úteis. Temos o prazer de oferecer uma prévia limitada desse recurso experimental para desenvolvedores e clientes corporativos. Demis Hassabis, CEO do Google Deepmind, compartilha mais sobre capacidades, segurança e disponibilidade abaixo.

-Sundar

Apresentando o Gemini 1.5

Este é um momento emocionante para a IA. Novos avanços neste campo têm o potencial de tornar a IA mais útil para milhões de pessoas nos próximos anos. Desde a introdução do Gemini 1.0, testamos, refinamos e aprimoramos seus recursos.

Hoje, anunciamos nosso modelo de próxima geração: Gemini 1.5.

O Gemini 1.5 oferece desempenho drasticamente aprimorado. Representa uma mudança radical na nossa abordagem, com base em inovações de pesquisa e engenharia em quase todas as partes do desenvolvimento e da infraestrutura do nosso modelo base. Isso inclui tornar o Gemini 1.5 mais eficiente para treinar e servir, com uma nova arquitetura Mixture-of-Experts (MoE).

O primeiro modelo Gemini 1.5 que estamos lançando para testes iniciais é o Gemini 1.5 Pro. Trata-se de um modelo multimodal de tamanho médio, otimizado para escalabilidade em uma ampla variedade de tarefas e com desempenho semelhante ao 1.0 Ultra, nosso maior modelo até o momento. Ele também introduz um recurso experimental inovador na compreensão de contextos longos.

O Gemini 1.5 Pro vem com uma janela de contexto padrão de 128 mil tokens. Mas, a partir de hoje, um grupo limitado de desenvolvedores e clientes corporativos pode testá-lo com uma janela de contexto de até 1 milhão de tokens por meio do AI Studio e do Vertex AI em visualização privada.

À medida que implementamos a janela completa de contexto de 1 milhão de tokens, estamos trabalhando ativamente em otimizações para melhorar a latência, reduzir os requisitos computacionais e aprimorar a experiência do usuário. Estamos entusiasmados para que as pessoas experimentem esse recurso inovador e compartilhamos mais detalhes sobre a disponibilidade futura do modelo aqui abaixo.

Esses avanços contínuos nos nossos modelos de próxima geração podem abrir novas possibilidades para pessoas, programadores e empresas criarem, descobrirem e construírem utilizando IA.

Animação comparando os comprimentos de contexto dos principais modelos básicos, listando Gemini 1.0 Pro com 32.000 tokens, GPT-4 Turbo com 128.000 tokens, Claude 2.1 com 200.000 tokens e Gemini 1.5 Pro com 1 milhão de tokens e até 10 milhões de tokens testado em pesquisa.

Entendimento do contexto dos modelos de base

Arquitetura altamente eficiente

O Gemini 1.5 é baseado em nossa pesquisa líder em arquitetura Transformer e MoE . Enquanto um Transformer tradicional funciona como uma grande rede neural, os modelos MoE são divididos em redes neurais “especializadas” menores.

Dependendo do tipo de entrada fornecida, os modelos MoE aprendem a ativar seletivamente apenas as vias especializadas mais relevantes em sua rede neural. Esta especialização aumenta significativamente a eficiência do modelo. O Google foi um dos primeiros a adotar o modelo, além de ter sido pioneiro na técnica MoE para aprendizado profundo por meio de pesquisas como Sparsely-Gated MoE, GShard-Transformer , Switch-Transformer, M4 e muito mais.

Nossas mais recentes inovações em arquitetura de modelo permitem que o Gemini 1.5 aprenda tarefas complexas com mais rapidez e mantenha a qualidade, ao mesmo tempo em que é mais eficiente para treinar e servir. Essas novidades estão ajudando nossas equipes a treinar e entregar versões mais avançadas do Gemini com mais rapidez do que nunca.

Maior contexto, recursos mais úteis

A “janela de contexto” de um modelo de IA é composta de tokens, que são os blocos de construção usados ​​para processar informações. Os tokens podem ser partes inteiras ou subseções de palavras, imagens, vídeos, áudio ou código. Quanto maior a janela de contexto de um modelo, mais informações ele pode receber e processar em um determinado prompt — tornando sua saída mais consistente, relevante e útil.

Por meio de uma série de inovações em machine learning, aumentamos a capacidade da janela de contexto do Gemini 1.5 Pro muito além dos 32 mil tokens originais do Gemini 1.0. Agora, podemos executar até 1 milhão de tokens em produção.

Isso significa que o Gemini 1.5 Pro pode processar grandes quantidades de informações de uma só vez – incluindo 1 hora de vídeo, 11 horas de áudio, bases de código com mais de 30 mil linhas de código ou mais de 700 mil palavras. Em nossa pesquisa, também testamos com sucesso até 10 milhões de tokens.

Raciocínio complexo sobre grandes quantidades de informações

O Gemini 1.5 Pro pode analisar, classificar e resumir perfeitamente grandes quantidades de conteúdo em um determinado prompt. Por exemplo, ao receber as transcrições de 402 páginas da missão Apollo 11 à Lua, ele pode interpretar conversas, eventos, imagens e detalhes encontrados no documento.

Melhor compreensão e raciocínio entre modalidades

O 1.5 Pro pode realizar tarefas altamente sofisticadas de compreensão e raciocínio para diferentes modalidades, incluindo vídeo. Por exemplo, quando recebe um filme mudo de 44 minutos de Buster Keaton, o modelo pode analisar com precisão vários pontos e eventos da trama e até mesmo raciocinar sobre pequenos detalhes do filme que podem facilmente passar despercebidos.

Resolução de problemas relevantes com blocos de código mais longos

A versão 1.5 Pro pode executar tarefas de resolução de problemas mais relevantes em blocos de código mais longos. Quando recebe um prompt com mais de 100 mil linhas de código, ele pode raciocinar melhor entre exemplos, sugerir modificações úteis e fornecer explicações sobre como funcionam diferentes partes do código.

Desempenho aprimorado

Quando testado em um painel abrangente de avaliações de texto, código, imagem, áudio e vídeo, o 1.5 Pro supera o 1.0 Pro em 87% dos benchmarks usados ​​para desenvolver nossos grandes modelos de linguagem (LLMs). E quando comparado ao 1.0 Ultra nos mesmos benchmarks, possui um desempenho bastante semelhante.

O Gemini 1.5 Pro mantém altos níveis de desempenho mesmo quando sua janela de contexto aumenta. Na avaliação Needle In A Haystack (NIAH), onde um pequeno pedaço de texto contendo um fato ou declaração específica é propositalmente colocado dentro de um longo bloco de texto, o 1.5 Pro encontrou o texto incorporado 99% das vezes, em blocos de dados com 1 milhão de tokens.

O Gemini 1.5 Pro também apresenta habilidades de “aprendizado em contexto”, o que significa que ele pode aprender uma nova habilidade a partir de informações fornecidas em um prompt longo, sem precisar de ajustes adicionais. Testamos essa habilidade no benchmark Machine Translation from One Book (MTOB), que mostra quão bem o modelo aprende com informações nunca vistas antes. Ao receber um manual de gramática de Kalamang, um idioma com menos de 200 falantes em todo o mundo, o modelo aprende a traduzir do inglês para Kalamang em um nível semelhante ao de uma pessoa que compreende o mesmo conteúdo.

Como a longa janela de contexto do 1.5 Pro é a primeira do tipo, entre modelos de grande escala, estamos continuamente desenvolvendo novas avaliações e benchmarks para testar seus novos recursos.

Para mais detalhes, consulte nosso relatório técnico do Gemini 1.5 Pro.

Extensos testes de ética e segurança

Em linha com os nossos Princípios de IA e políticas de segurança robustas, garantimos que os nossos modelos são submetidos a extensos testes éticos e de segurança. Em seguida, integramos esses aprendizados de pesquisa em nossos processos de governança e no desenvolvimento de modelos e avaliações para melhorar continuamente nossos sistemas de IA.

Desde o lançamento do 1.0 Ultra em dezembro, nossas equipes continuaram refinando o modelo, tornando-o mais seguro para um lançamento mais amplo. Também conduzimos novas pesquisas sobre riscos de segurança e desenvolvemos técnicas de red teaming para testar uma série de danos potenciais.

Antes do lançamento do 1.5 Pro, adotamos a mesma abordagem de implantação responsável que adotamos para nossos modelos Gemini 1.0, conduzindo avaliações extensas em áreas que incluem segurança de conteúdo e danos representacionais, e continuaremos a expandir esses testes. Além disso, estamos desenvolvendo mais testes que levam em conta as novas capacidades de longo contexto do 1.5 Pro.

Crie e experimente modelos Gemini

Estamos empenhados em levar cada nova geração de modelos Gemini a milhões de pessoas, programadores e empresas em todo o mundo de forma responsável.

A partir de hoje, oferecemos uma limited preview do 1.5 Pro para desenvolvedores e clientes corporativos por meio do AI Studio e do Vertex AI . Leia mais sobre isso em nosso blog Google for Developers e no blog Google Cloud .

Também apresentaremos o 1.5 Pro com uma janela de contexto padrão de 128 mil tokens quando o modelo estiver pronto para um lançamento mais amplo. Em breve, planejamos introduzir níveis de preços que começam na janela de contexto padrão de 128 mil e vão até 1 milhão de tokens, à medida que melhoramos o modelo.

Os primeiros testadores podem experimentar a janela de contexto de 1 milhão de tokens sem nenhum custo durante o período de teste, embora devam esperar tempos de latência mais longos com esse recurso experimental. Melhorias significativas na velocidade também estão no horizonte.

Os desenvolvedores interessados ​​em testar o 1.5 Pro podem se inscrever agora no AI Studio, enquanto os clientes corporativos podem entrar em contato com sua equipe de contas do Vertex AI.