Acesse o menu principal

Blog do Google Brasil

Apresentando o Gemini: nosso maior e mais hábil modelo de IA

Apresentando o Gemini: nosso maior e mais hábil modelo de IA

[]

Apresentando o Gemini: nosso maior e mais hábil modelo de IA

06 Dez, 2023

|

Sundar Pichai

CEO of Google and Alphabet

Demis Hassabis

CEO and Co-Founder, DeepMind

gemini

Neste artigo

Uma mensagem do CEO do Google e da Alphabet, Sundar Pichai:

Cada mudança tecnológica é uma oportunidade para promover a descoberta científica, acelerar o progresso humano e melhorar vidas. Acredito que a transição que estamos vendo agora com a IA será a mais profunda de nossas vidas, muito maior do que a mudança para dispositivos móveis ou para a web antes dela. A IA tem o potencial de criar oportunidades — do cotidiano ao extraordinário — para pessoas em todo o mundo. Trará novas ondas de inovação e progresso econômico e impulsionará o conhecimento, a aprendizagem, a criatividade e a produtividade numa escala nunca vista antes.

É isso que me entusiasma: a oportunidade de tornar a IA útil para todas as pessoas, em qualquer lugar do mundo.

Após quase oito anos de nossa jornada como uma empresa que prioriza a IA, o ritmo do progresso está acelerando: milhões de pessoas estão agora usando IA generativa em nossos produtos para fazer coisas que não conseguiam há um ano, desde encontrar respostas e soluções para questões complexas até o uso de novas ferramentas para colaborar e criar. Ao mesmo tempo, os desenvolvedores estão usando nossos modelos e infraestrutura para criar novas aplicações generativas de IA. Startups e empresas em todo o mundo também estão crescendo com nossas ferramentas de IA.

Esse é um avanço incrível e, no entanto, estamos apenas começando a arranhar a superfície do que é possível.

Estamos trabalhando com ousadia e responsabilidade. Isso significa sermos ambiciosos na nossa pesquisa e procurarmos habilidades que trarão enormes benefícios às pessoas e à sociedade, ao mesmo tempo que construímos salvaguardas e trabalhamos em colaboração com governos e especialistas para enfrentar os riscos à medida que a IA se torna mais hábil. E continuamos a investir nas melhores ferramentas, modelos de base e infraestrutura e a trazê-los para os nossos produtos e para outros, guiados sempre pelos nossos Princípios de IA.

Agora, estamos dando o próximo passo em nossa jornada com o Gemini, nosso modelo mais hábil até agora, com desempenho de última geração nos melhores benchmarks da indústria. Nossa primeira versão, Gemini 1.0, é otimizada para diferentes tamanhos: Ultra, Pro e Nano. Estes são os primeiros modelos da era Gemini e, com ela, estamos concretizando a visão que tínhamos quando formamos o Google DeepMind no início deste ano.

A nova era dos modelos de IA representa um dos maiores esforços científicos e de engenharia que empreendemos como empresa. Estou genuinamente animado com o que está por vir e com as oportunidades que Gemini abrirá para pessoas em todos os lugares.

– Sundar

Apresentando Gemini

Por Demis Hassabis, CEO e Cofundador do Google DeepMind, em nome do time Gemini

A Inteligência Artificial (IA) tem sido o principal foco de trabalho durante a minha vida, como tem sido também o de muitos dos meus colegas de pesquisa. Desde quando programava jogos de computador com IA na minha adolescência, e ao longo dos meus anos como pesquisador de neurociência tentando entender o funcionamento do cérebro, sempre acreditei que, se pudéssemos construir máquinas mais inteligentes, poderíamos usá-las para beneficiar a humanidade de maneiras incríveis.

Essa promessa de desenvolver uma IA de forma responsável continua a impulsionar nosso trabalho no Google DeepMind. Durante muito tempo, planejamos construir uma nova geração de modelos de IA, inspirados na forma como as pessoas compreendem o mundo e interagem com ele. Uma IA que pareça menos um software inteligente e mais um colaborador ou assistente especializado, ainda mais útil e intuitivo.

Hoje, damos mais um passo nessa direção ao apresentarmos o Gemini, o modelo mais hábil que já desenvolvemos.

O Gemini é o resultado de um trabalho colaborativo e em grande escala entre diferentes times do Google, incluindo nossos colegas do Google Research. Esse modelo foi construído desde a sua concepção para ser multimodal, o que significa que pode compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagem, áudio e vídeo.

O Gemini também é o nosso modelo mais flexível até agora — capaz de funcionar com eficiência em tudo, desde data centers até dispositivos móveis. Seus recursos de última geração melhorarão significativamente a forma como os desenvolvedores e empresas desenvolvem e escalam soluções com IA.

Otimizamos o Gemini 1.0, nossa primeira versão do modelo, em três tamanhos diferentes:

Gemini Ultra: nosso maior e mais hábil modelo para tarefas altamente complexas.
Gemini Pro: nosso melhor modelo para escalar uma grande variedade de tarefas.
Gemini Nano: nosso modelo mais eficiente para realizar tarefas em dispositivos.

Performance e o estado da arte

Nossos modelos Gemini são testados rigorosamente e estamos, continuamente, avaliando seu desempenho em uma ampla variedade de tarefas. Desde imagens, compreensão de áudio e vídeo ao raciocínio matemático, o desempenho do Gemini Ultra excede os resultados atuais de última geração em 30 dos 32 benchmarks acadêmicos amplamente utilizados na pesquisa e desenvolvimento de Grandes Modelos de Linguagem (LLMs, na sigla em inglês).

Com uma pontuação de 90.0%, o Gemini Ultra é o primeiro modelo a superar os especialistas humanos em MMLU (Entendimento de Linguagem Massiva e Multitarefa), que usa uma combinação de 57 disciplinas, como matemática, física, história, direito, medicina e ética, para testar tanto o conhecimento sobre o mundo, quanto a capacidade de resolução de problemas.

Nossa nova abordagem de benchmark para MMLU permite que o Gemini use seus recursos de raciocínio com mais cuidado antes de responder perguntas difíceis, levando a melhorias significativas em relação ao uso apenas de sua primeira impressão.

Gemini supera o desempenho de última geração em uma série de benchmarks, incluindo texto e codificação.

um gráfico que mostra o desempenho do Gemini Ultra em benchmarks de texto comum, em comparação com GPT-4 (números de API calculados onde faltavam os números relatados).

O Gemini Ultra também alcança uma pontuação de última geração de 59,4% no novo benchmark MMMU, que consiste em tarefas multimodais abrangendo diferentes domínios que exigem raciocínio intencional. Com os benchmarks de imagem que testamos, o Gemini Ultra superou os modelos anteriores de última geração sem a ajuda de sistemas de reconhecimento óptico de caracteres (OCR, na sigla em inglês). Esses benchmarks destacam a multimodalidade nativa do Gemini e indicam os primeiros sinais das habilidades de raciocínio multimodal mais complexas do modelo.

Veja mais detalhes em nosso relatório técnico Gemini.

Gemini supera o desempenho de última geração em uma série de benchmarks multimodais.

um gráfico que mostra o desempenho do Gemini Ultra em benchmarks multimodais em comparação com o GPT-4V, com modelos SOTA anteriores listados em locais onde os recursos não são suportados no GPT-4V.

Novas capacidades

Até agora, a abordagem padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar algumas dessas funcionalidades. Às vezes, esses modelos podem ser bons na execução de certas tarefas, como descrever imagens, mas enfrentam problemas com raciocínios conceituais e mais complexos.

Projetamos o Gemini para ser nativamente multimodal, pré-treinado desde o início em diferentes modalidades. Em seguida, aperfeiçoamos o modelo com dados multimodais adicionais para refinar ainda mais a sua eficácia. Isso ajuda o Gemini a compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o início, de uma forma muito melhor do que os modelos multimodais existentes e com recursos de última geração em quase todos os domínios.

Saiba mais sobre as capacidades do Gemini e veja como funciona.

Raciocínio sofisticado

Os sofisticados recursos multimodais do Gemini 1.0 podem ajudar a compreender informações complexas, sejam elas escritas ou visuais. Isso o torna excepcionalmente hábil em descobrir conhecimentos que podem ser difíceis de discernir em meio a grandes quantidades de dados.

A sua notável capacidade de extrair insights de centenas de milhares de documentos por meio da leitura, filtragem e compreensão de informações ajudará a proporcionar novos avanços de forma ainda mais veloz em muitos campos, da ciência às finanças.

Compreendendo textos, imagens, áudios e muito mais

O Gemini 1.0 foi treinado para reconhecer e compreender textos, imagens, áudios e muito mais ao mesmo tempo. Tudo isso para melhor compreender informações diferenciadas e poder responder perguntas relacionadas a tópicos complicados, tornando-o excepcionalmente hábil para explicar o raciocínio em assuntos complexos como matemática e física.

Codificação avançada

Nossa primeira versão do Gemini pode compreender, explicar e gerar código de alta qualidade nas linguagens de programação mais populares do mundo, como Python, Java, C++ e Go. Sua capacidade de trabalhar em vários idiomas e raciocinar sobre informações complexas o torna um dos principais modelos base de codificação do mundo.

O Gemini Ultra se destaca em vários benchmarks de codificação, incluindo HumanEval, um importante padrão da indústria para avaliar o desempenho em tarefas de codificação , e Natural2Code, nosso conjunto de dados interno, que usa fontes geradas pelo autor ao invés de informações baseadas na web.

O modelo também pode ser usado como mecanismo para sistemas de codificação mais avançados. Há dois anos apresentamos o AlphaCode, o primeiro sistema de geração de código de IA a atingir um nível competitivo de desempenho em competições de programação.

Usando uma versão especializada do Gemini, criamos um sistema de geração de código mais avançado, o AlphaCode 2, que se destaca na solução de problemas de programação competitivos que vão além da codificação, envolvendo matemática complexa e teoria da ciência da computação.

Quando avaliado na mesma plataforma do AlphaCode original, o AlphaCode 2 apresenta grandes melhorias, resolvendo quase o dobro de problemas, e estimamos que seu desempenho seja melhor que 85% dos participantes da competição – acima dos quase 50% do AlphaCode. Quando os programadores colaboram com o AlphaCode 2 definindo certas propriedades a serem seguidas pelos exemplos de código, ele tem um desempenho ainda melhor.

Estamos animados com o fato de programadores usarem cada vez mais modelos de IA altamente capazes como ferramentas colaborativas. Isso pode ajudá-los a raciocinar sobre os problemas, propor designs de código e na implementação - para que possam lançar aplicativos e projetar serviços melhores e com mais rapidez.

Veja mais detalhes em nosso relatório técnico do AlphaCode 2.

Mais confiável, escalável e eficiente

Treinamos o Gemini 1.0 em escala em nossa infraestrutura otimizada para IA, usando unidades de processamento de tensor (TPUs) v4 e v5e, projetadas internamente pelo Google. E nós o projetamos para ser nosso modelo mais confiável e escalável para treinamento e mais eficiente para servir.

Nas TPUs, o Gemini funciona significativamente mais rápido do que os modelos anteriores, que são menores e com menos capacidade. Esses aceleradores de IA personalizados estão no centro do desenvolvimento de produtos do Google baseados em IA, que atendem bilhões de usuários, como a Busca, Youtube, Gmail, Maps, Play e Android. Eles também permitem que empresas em todo o mundo treinem seus próprios modelos de IA em grande escala de maneira eficiente.

Hoje, também estamos anunciando o sistema TPU mais poderoso e escalável até o momento, o Cloud TPU v5, projetado para treinar modelos avançados de inteligência artificial. Essa TPU da próxima geração vai acelerar o desenvolvimento do Gemini e ajudará os desenvolvedores e clientes corporativos a treinar modelos de IA generativa em grande escala com mais rapidez, permitindo que novos produtos e recursos cheguem aos clientes mais rapidamente.

Uma fileira de supercomputadores aceleradores de IA Cloud TPU v5p em um data center do Google.

Uma fileira de supercomputadores aceleradores de IA Cloud TPU v5p em um data center do Google.

Construído com responsabilidade e segurança

No Google, temos o compromisso de promover uma IA ousada e responsável em tudo o que fazemos. Com base nos Princípios de IA do Google e nas políticas de segurança robustas de nossos produtos, estamos adicionando novas proteções para os recursos multimodais do Gemini. Em cada estágio de desenvolvimento, consideramos riscos potenciais e trabalhamos para testá-los e mitigá-los.

O Gemini tem as avaliações de segurança mais abrangentes de qualquer modelo de IA do Google até o momento, inclusive quanto a preconceitos e toxicidade. Conduzimos novas pesquisas em áreas com potencial de risco, como conteúdo ofensivo, persuasão e autonomia, e aplicamos as melhores técnicas de testes adversariais do Google Research para ajudar a identificar problemas críticos de segurança antes da implantação do Gemini.

Para identificar pontos cegos na nossa abordagem de avaliação interna, estamos trabalhando com um grupo diversificado de especialistas e parceiros externos para testar a resistência dos nossos modelos numa série de questões.

Para diagnosticar problemas de segurança de conteúdo durante as fases de treinamento do Gemini e garantir que seus resultados sigam nossas políticas, estamos usando benchmarks como Real Toxicity Prompts, um conjunto de 100.000 prompts com vários graus de toxicidade extraídos da web, desenvolvidos por especialistas do Allen Institute for AI. Mais detalhes sobre este projeto serão divulgados em breve.

Para limitar os danos, construímos classificadores de segurança dedicados para identificar, rotular e classificar conteúdos que envolvem, por exemplo, violência ou estereótipos negativos. Combinada com filtros robustos, esta abordagem em camadas foi projetada para tornar o Gemini mais seguro e inclusivo para todos. E continuamos a abordar desafios conhecidos para modelos como factualidade, fundamentação, atribuição e corroboração.

A responsabilidade e a segurança serão sempre fundamentais para o desenvolvimento e implementação dos nossos modelos. Esse é um compromisso de longo prazo que requer construção colaborativa, por isso estamos fazendo parceria com a indústria e com um ecossistema mais amplo para definir padrões de referência e melhores práticas de segurança, por meio de organizações como MLCommons, Frontier Model Forum, AI Safety Fund e Secure AI Framework (SAIF), que foi projetado para ajudar a mitigar os riscos de segurança específicos dos sistemas de IA nos setores público e privado. Continuaremos a fazer parcerias com pesquisadores, governos e grupos da sociedade civil em todo o mundo à medida que desenvolvemos o Gemini.

Disponibilizando o Gemini para o mundo

O Gemini 1.0 agora está sendo lançado em uma variedade de produtos e plataformas:

Gemini Pro em produtos do Google

Estamos levando o Gemini a bilhões de pessoas por meio dos nossos produtos.

A partir de hoje, o Bard usará uma versão aprimorada do Gemini Pro para raciocínio, planejamento, compreensão mais avançada e muito mais. Essa é a maior atualização do Bard desde o seu lançamento. A versão estará disponível em inglês em mais de 170 países e territórios, e planejamos expandir para diferentes modalidades, além de oferecer suporte a novos locais e idiomas nos próximos meses.

Também estamos trazendo o Gemini para o Pixel. O Pixel 8 Pro é o primeiro smartphone projetado para rodar o Gemini Nano, que está potencializando novos recursos como o Summarize no aplicativo Recorder e o Smart Reply no Gboard, começando com o WhatsApp - com mais aplicativos de mensagens chegando no próximo ano.

Nos próximos meses, o Gemini estará disponível em mais produtos e serviços, como a Busca, Google Ads, Chrome e Duet AI.

Construindo com Gemini

A partir de 13 de dezembro, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro por meio da API Gemini no Google AI Studio ou no Vertex AI, do Google Cloud.

O Google AI Studio é uma ferramenta gratuita para desenvolvedores baseada na Web que ajuda desenvolvedores e clientes corporativos a criar protótipos e lançar aplicativos rapidamente com uma chave de API. Quando chegar a hora de uma plataforma de IA totalmente gerenciada, a Vertex AI vai permitir a personalização do Gemini com controle total de dados e se beneficiar de recursos adicionais do Google Cloud para segurança empresarial, proteção, privacidade e governança e conformidade de dados.

Os desenvolvedores Android também poderão construir com o Gemini Nano, nosso modelo mais eficiente para tarefas no dispositivo, via AICore, um novo recurso de sistema disponível no Android 14, começando em dispositivos Pixel 8 Pro. Inscreva-se para uma prévia antecipada do AI Core.

Gemini Ultra em breve

Para o Gemini Ultra, estamos, atualmente, concluindo extensas verificações de confiança e segurança. Isso inclui a formação de equipes externas de confiança e estamos refinando ainda mais o modelo usando ajuste fino e aprendizagem por reforço a partir de feedback humano (RLHF, na sigla em inglês) antes de implementá-lo.

Como parte desse processo, disponibilizaremos o Gemini Ultra para clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade selecionados para experimentação e feedback iniciais antes de disponibilizá-lo amplamente para desenvolvedores e clientes corporativos no início do próximo ano.

No início de 2024, também lançaremos o Bard Advanced, uma nova experiência de IA que dará acesso aos nossos melhores modelos e capacidades, começando com o Gemini Ultra.

A era Gemini: possibilitando um futuro de inovação

Este é um marco significativo no desenvolvimento da IA e o início de uma nova era para nós no Google, à medida que continuamos a inovar rapidamente e a desenvolver de forma responsável os recursos dos nossos modelos.

Fizemos um progresso incrível no Gemini até agora e estamos trabalhando duro para ampliar ainda mais seus recursos para versões futuras, incluindo avanços no planejamento e na memória, e aumentando a janela de contexto para processar ainda mais informações e fornecer respostas melhores.

Estamos animados com as incríveis possibilidades de um mundo capacitado de forma responsável pela IA. Um futuro de inovação que aumentará a criatividade, ampliará o conhecimento, fará avançar a ciência e transformará a forma como milhares de milhões de pessoas vivem e trabalham em todo o mundo.

Publicado em:

Apoio a iniciativas de saúde mental e bem-estar de jovens no Brasil

A inteligência artificial é uma ferramenta poderosa para enfrentar desafios complexos de saúde pública, desde a proteção de ecossistemas críticos até a melhoria da infr…

Google Workspace

Novas formas de criar e realizar tarefas no Google Workspace

Por Yulie Kwon Kim

Gemini 3.5: inteligência de ponta e ação

Por Koray Kavukcuoglu & Jeff Dean & Oriol Vinyals & Noam Shazeer

Uma nova era para a Busca com IA

Por Elizabeth Reid

Inteligência Artificial

I/O 2026: Bem-vindos à era agêntica do Gemini

Por Sundar Pichai

Inteligência Artificial

Conheça o novo Certificado Profissional de IA do Google

Por Time de Comunicação do Google Brasil