Acesse o menu principal

Blog do Google Brasil

Google I/O 2024: Um I/O para uma nova geração

Google I/O 2024: Um I/O para uma nova geração

14 Mai, 2024

Sundar Pichai

CEO do Google e da Alphabet

Google I/O

Leia nesta publicação uma transcrição editada dos comentários de Sundar Pichai no I/O 2024, adaptada para incluir mais informações sobre o que foi anunciado no palco. Veja todos os anúncios em nossa coleção.

O Google está totalmente na era Gemini.

Antes de qualquer coisa, gostaria de refletir sobre o momento em que estamos. Estamos investindo em inteligência artificial (IA) há mais de uma década - e inovando em todas as camadas: pesquisa, produto e infraestrutura. Vamos falar sobre tudo isso hoje.

Ainda assim, estamos nos primeiros dias da transformação da IA. Vemos muitas oportunidades à frente, para criadores, desenvolvedores, startups e para todas as pessoas. Ajudar a impulsionar essas oportunidades é o objetivo da nossa era Gemini. Então, vamos começar.

A era Gemini

Há um ano, no palco do I/O, compartilhamos pela primeira vez nossos planos para o Gemini: um modelo de ponta criado para ser multimodal, capaz de raciocinar em textos, imagens, vídeos, códigos e muito mais. Isso representa um grande passo para transformar qualquer input em qualquer output - um "I/O" para uma nova geração.

Desde então, apresentamos os primeiros modelos Gemini, os nossos modelos mais capazes até o momento. Eles demonstraram um desempenho de última geração em todos os benchmarks multimodais. Dois meses depois, apresentamos o Gemini 1.5 Pro, que mostrou um grande avanço em contextos longos. Ele pode executar um milhão de tokens em produção, de forma consistente – mais do que qualquer outro modelo fundacional de grande escala até o momento.

Queremos que todos se beneficiem do que o Gemini é capaz de fazer. Por isso, trabalhamos rapidamente para compartilhar esses avanços com todos vocês. Atualmente, mais de 1,5 milhão de desenvolvedores estão usando os modelos Gemini em nossas ferramentas para depurar códigos, obter novos insights e criar a próxima geração de aplicativos de IA.

Também estamos incorporando as capacidades inovadoras do Gemini em todos os nossos produtos, de maneiras poderosas. Hoje, mostraremos exemplos na Busca, Fotos, Workspace, Android e muito mais.

Progresso dos produtos

Hoje, todos os nossos produtos com 2 bilhões de usuários já usam o Gemini.

E também introduzimos novas experiências, inclusive em dispositivos móveis, onde as pessoas podem interagir com o Gemini diretamente por meio do app – agora disponível para Android e iOS – e por meio do Gemini Advanced, que oferece acesso aos nossos modelos mais eficientes. Mais de 1 milhão de pessoas se inscreveram para experimentar o Gemini em apenas três meses.

Expansão dos Resumos gerados com IA na Busca

Uma das transformações mais empolgantes com o Gemini aconteceu na Busca do Google.

No ano passado, respondemos a bilhões de consultas com a nossa Experiência Generativa de Busca (SGE). As pessoas estão usando este recurso para buscarem de formas totalmente novas, fazendo novos tipos de perguntas, consultas mais longas e complexas, até mesmo pesquisas com fotos, e obtendo o melhor que a web tem a oferecer.

Overview

Estamos testando essa experiência fora do Labs. E estamos animados em ver não apenas um aumento no uso da Busca, mas também um aumento na satisfação dos nossos usuários.

Tenho o prazer de anunciar que começaremos a lançar essa experiência totalmente renovada, os Resumos Gerados por IA (AI Overviews, em inglês), para todos os usuários nos Estados Unidos. E levaremos essa experiência para outros países em breve.

Há muitas coisas novas acontecendo na Busca. Graças ao Gemini, podemos criar experiências de pesquisa muito mais poderosas, inclusive em nossos produtos.

Apresentando o Pergunte ao Fotos

Um exemplo é o Google Fotos, que lançamos há quase nove anos. Desde então, as pessoas o utilizam para organizar suas lembranças mais importantes. Hoje, são mais de seis bilhões de fotos e vídeos carregados todos os dias.

E as pessoas adoram usar o Fotos para fazer buscas em suas vidas. Com o Gemini, estamos tornando isso muito mais fácil.

Digamos que você esteja pagando no estacionamento, mas não consegue lembrar o número da placa do carro. Antes, você podia pesquisar palavras-chave no Photos e, em seguida, percorrer anos de fotos, procurando as placas. Agora, você pode simplesmente perguntar ao Photos. Ele conhece os carros que aparecem com frequência, triangula qual deles é o seu e informa o número da placa.

E o Ask Photos pode ajudá-lo a pesquisar suas memórias de uma maneira mais profunda. Por exemplo, você pode estar relembrando os primeiros passos de sua filha Lúcia. Agora, você pode perguntar ao Fotos: "Quando Lúcia aprendeu a nadar?"

E você pode continuar com algo ainda mais complexo: "Mostre-me como a natação de Lúcia progrediu".

Aqui, o Gemini vai além de uma simples pesquisa, reconhecendo diferentes contextos – desde as voltas na piscina, passando pelo mergulho no oceano, até o texto e as datas em seus certificados de natação. E o Fotos agrupa tudo em um resumo, para que você possa realmente absorver tudo e reviver memórias incríveis mais uma vez. Estamos lançando o Ask Photos neste verão, com mais recursos por vir.

Com o Ask Photos, você pode pesquisar suas fotos e vídeos de maneiras mais detalhadas. Estamos lançando o Ask Photos neste verão, com mais recursos por vir

Com o Ask Photos, você pode pesquisar suas fotos e vídeos de maneiras mais detalhadas. Estamos lançando o Ask Photos neste verão, com mais recursos por vir

Desbloqueando mais conhecimento com multimodalidade e contexto longo

A capacidade de desvendar o conhecimento em vários formatos é o motivo pelo qual criamos o Gemini para ser multimodal desde o início. É um modelo único, com todas as modalidades incorporadas. Portanto, ele não apenas entende cada tipo de entrada, mas também encontra conexões entre elas.

A multimodalidade expande radicalmente as perguntas que podemos fazer e as respostas que obteremos. O contexto longo leva isso um passo adiante, permitindo-nos trazer ainda mais informações: centenas de páginas de texto, horas de áudio ou uma hora de vídeo, repositórios de código inteiros... ou, se você quiser, cerca de 96 menus do Cheesecake Factory.

Para essa quantidade de menus, você precisaria de uma janela de contexto com um milhão de tokens, o que agora é possível com o Gemini 1.5 Pro. Os desenvolvedores estão trabalhando com ela de formas muito interessantes.

Nos últimos meses, estamos disponibilizando o Gemini 1.5 Pro com contexto longo em uma versão de demonstração. Fizemos uma série de melhorias de qualidade na tradução, codificação e raciocínio, atualizações que estão refletidas no modelo a partir de hoje.

Agora, tenho o prazer de anunciar que estamos disponibilizando essa versão aprimorada do Gemini 1.5 Pro para todos os desenvolvedores em todo o mundo. Além disso, hoje, o Gemini 1.5 Pro com 1 milhão de contextos está disponível diretamente para os consumidores no Gemini Advanced. Ele pode ser usado em 35 idiomas.

Expansão para 2 milhões de tokens para desenvolvedores

Um milhão de tokens estão abrindo possibilidades totalmente novas. É empolgante, mas acho que podemos avançar ainda mais.

Por isso, hoje, estamos expandindo a janela de contexto para 2 milhões de tokens e disponibilizando-a para os desenvolvedores selecionados.

É incrível olhar para trás e ver o quanto progredimos em poucos meses. E isso representa o próximo passo em nossa jornada rumo ao objetivo final do contexto infinito.

Trazendo o Gemini 1.5 Pro para o Workspace

Até agora, falamos sobre dois avanços técnicos: multimodalidade e contexto longo. Cada um deles é poderoso por si só. Mas, juntos, eles liberam recursos mais profundos e mais inteligência.

Isso ganha vida com o Google Workspace.

As pessoas estão sempre pesquisando seus e-mails no Gmail. Estamos trabalhando para tornar isso muito mais eficiente com o Gemini. Por exemplo, como pai, você quer se manter informado sobre tudo o que está acontecendo na escola do seu filho. O Gemini pode ajudá-lo.

Agora podemos pedir ao Gemini para resumir todos os e-mails recentes da escola. Em segundo plano, ele está identificando e-mails relevantes e até mesmo analisando anexos, como PDFs. Você recebe um resumo dos principais pontos e itens de ação. Talvez você tenha viajado esta semana e não tenha conseguido participar da reunião de pais. A gravação da reunião tem uma hora de duração, mas se tiver sido gravada com o Google Meet, você pode pedir ao Gemini que selecione os destaques. Há um grupo de pais procurando voluntários, e você está livre naquele dia. Então, é claro, o Gemini pode redigir uma resposta.

Há inúmeros outros exemplos de como isso pode facilitar sua vida. O Gemini 1.5 Pro está disponível hoje no Workspace Labs. Aparna compartilhou mais sobre isso.

Output de áudio no NotebookLM

Acabamos de ver um exemplo com outputs de texto. Mas com um modelo multimodal, podemos fazer muito mais.

O Audio Overviews no NotebookLM mostra o progresso. Ele usa o Gemini para pegar seus inputs e gerar uma conversa de áudio personalizada e interativa.

Essa é a oportunidade da multimodalidade. Em breve, você poderá misturar e combinar inputs e outputs. É isso que queremos dizer quando afirmamos que se trata de um I/O para uma nova geração. Mas e se pudéssemos ir ainda mais longe?

Indo além com agentes de IA

Ir ainda mais longe é uma das oportunidades que vemos com os agentes de IA. Penso neles como sistemas inteligentes que demonstram raciocínio, planejamento e memória, são capazes de "pensar" vários passos à frente e trabalhar com software e sistemas, tudo para fazer algo em seu nome e, o mais importante, sob sua supervisão.

Ainda estamos nos primeiros dias, mas deixe-me mostrar os tipos de casos de uso que estamos trabalhando arduamente para resolver.

Vamos começar com as compras. É muito divertido comprar sapatos e muito menos divertido devolvê-los quando não servem.

Imagine se o Gemini pudesse fazer todas as etapas para você:

Procurar o recibo em sua caixa de entrada...

Localizar o número do pedido em seu e-mail...

Preencher um formulário de devolução...

Até mesmo agendar uma coleta do produto…

Isso é muito mais fácil, certo?

Vamos dar outro exemplo um pouco mais complexo.

Digamos que você acabou de se mudar para Chicago. Você pode imaginar Gemini e Chrome trabalhando juntos para ajudá-lo a fazer uma série de coisas para se preparar – organizando, raciocinando, sintetizando em seu nome.

Por exemplo, você vai querer explorar a cidade e encontrar serviços próximos, de lavanderias a a passeadores de cães. E terá de atualizar seu novo endereço em dezenas de sites.

O Gemini pode trabalhar com essas tarefas e solicitará mais informações quando necessário, para que você esteja sempre no controle.

Essa parte é realmente importante - ao prototiparmos essas experiências, estamos pensando muito em como fazer isso de uma forma privada, segura e que funcione para todos.

Esses são casos de uso simples, mas que dão uma boa ideia dos tipos de problemas que queremos resolver, criando sistemas inteligentes que pensam no futuro, raciocinam e planejam, tudo em seu nome.

O que isso significa para a nossa missão

O poder do Gemini – com multimodalidade, contexto longo e agentes – nos aproxima de nosso objetivo final: tornar a IA útil para todos.

Para nós, é assim que faremos o maior progresso em nossa missão: organizar as informações do mundo em qualquer formato e torná-las acessíveis por meio de qualquer output e combinar as informações do mundo com as informações do SEU mundo, de uma forma que seja realmente útil para você.

Desbravando novos caminhos

Para realizar todo o potencial da IA, precisaremos desbravar novos caminhos. A equipe do Google DeepMind tem trabalhado arduamente para isso.

Vimos muito entusiasmo em torno do 1.5 Pro e de sua longa janela de contexto. Mas também ouvimos dos desenvolvedores que eles queriam algo mais rápido e econômico. Portanto, amanhã, apresentaremos o Gemini 1.5 Flash, um modelo mais leve criado para ser dimensionado. Ele é otimizado para tarefas em que a baixa latência e o custo são os aspectos mais importantes. O 1.5 Flash estará disponível no AI Studio e no Vertex AI na terça-feira.

Olhando para o futuro, sempre quisemos criar um agente universal que fosse útil na vida cotidiana. O Projeto Astra mostra compreensão multimodal e recursos de conversação em tempo real.

Também fizemos progressos na geração de vídeos e imagens com o Veo e o Imagen 3, e apresentamos o Gemma 2.0, nossa próxima geração de modelos abertos para inovação responsável de IA. Leia mais no post de Demis Hassabis.

Infraestrutura para a era da IA: apresentando o Trillium

O treinamento de modelos de última geração exige muito poder de computação. A demanda do setor por computação de Machine Learning cresceu em um fator de 1 milhão nos últimos seis anos. E, a cada ano, ela aumenta dez vezes.

O Google foi criado para isso. Durante 25 anos, investimos em uma infraestrutura técnica de classe mundial. Desde o hardware que alimenta a Busca até nossas unidades de processamento Tensor personalizadas, que alimentam nossos avanços em IA.

O Gemini foi treinado e utilizado inteiramente em nossos TPUs de quarta e quinta geração. E outras empresas líderes em IA, incluindo a Anthropic, também treinaram seus modelos nos nossos TPUs.

Hoje, temos o prazer de anunciar nossa sexta geração de TPUs, chamada Trillium. A Trillium nosso TPU mais eficiente e de melhor desempenho até o momento, proporcionando uma melhoria de 4,7 vezes no desempenho de computação por chip em relação à geração anterior, a TPU v5e.

Disponibilizaremos a Trillium para nossos clientes de nuvem no final de 2024.

Juntamente com nossas TPUs, temos orgulho de oferecer CPUs e GPUs para suportar qualquer carga de trabalho. Isso inclui os novos processadores Axion que anunciamos no mês passado, nossa primeira CPU personalizada baseada em Arm, que oferece desempenho e eficiência energética líderes no setor.

Também nos orgulhamos de ser um dos primeiros provedores de nuvem a oferecer os GPUs Blackwell de última geração da Nvidia, disponíveis no início de 2025. Temos a sorte de ter uma parceria de longa data com a NVIDIA e estamos entusiasmados em trazer os recursos inovadores da Blackwell para nossos clientes.

Os chips são uma parte fundamental de nosso sistema integrado de ponta a ponta. Desde hardware otimizado para desempenho e software aberto até modelos de consumo flexíveis. Tudo isso está reunido em nosso AI Hypercomputer, uma arquitetura inovadora de supercomputador.

As empresas e os desenvolvedores estão usando-a para enfrentar desafios mais complexos, com mais do que o dobro da eficiência em relação à simples compra de hardware e chips brutos. Os avanços do nosso AI Hypercomputer são possíveis em parte devido à nossa abordagem de resfriamento líquido em nossos data centers.

Estamos fazendo isso há quase uma década, muito antes de se tornar o estado da arte da indústria. Atualmente, a nossa capacidade total de nossa frota implementada para sistemas de resfriamento líquido é de quase 1 Gigawatt e está crescendo, o que representa quase 70 vezes a capacidade de qualquer outra frota.

Por trás disso está a grande escala de nossa rede, que conecta nossa infraestrutura globalmente. Nossa rede abrange mais de 2 milhões de milhas de fibra terrestre e submarina: mais de 10 vezes (!) o alcance do próximo provedor líder de nuvem.

Continuaremos a fazer os investimentos necessários para promover a inovação em IA e oferecer recursos de última geração.

O capítulo mais empolgante da Busca até o momento

Uma de nossas maiores áreas de investimento e inovação está em nosso produto fundador, a Busca. Há 25 anos, criamos a Busca para ajudar as pessoas a entenderem os grandes volumes de informações que circulam online.

A cada mudança de plataforma, fizemos avanços para ajudar a responder melhor às suas perguntas. Nos dispositivos móveis, criamos novos tipos de perguntas e respostas, usando melhor contexto, reconhecimento de local e informações em tempo real. Com os avanços na compreensão da linguagem natural e na visão computacional, possibilitamos novas maneiras de pesquisar, seja com sua voz ou murmurando para encontrar sua nova música favorita, ou mesmo compartilhando uma imagem daquela flor que você viu em sua caminhada. E agora você pode até mesmo circular para pesquisar aqueles sapatos novos e bacanas que talvez queira comprar. Vá em frente, você sempre pode devolvê-los!

É claro que a Busca na Era Gemini levará isso a um nível totalmente novo, combinando nossos pontos fortes de infraestrutura, os mais recentes recursos de IA, nosso alto padrão de qualidade de informações e nossas décadas de experiência conectando você à riqueza da Web. O resultado é um produto que faz o trabalho por você.

A Busca Google é a IA generativa na escala da curiosidade humana. E é o nosso capítulo mais empolgante da Busca até o momento. Leia mais sobre a era Gemini da Busca com Liz Reid.

Experiências Gemini mais inteligentes

O Gemini é mais do que um chatbot; ele foi projetado para ser seu assistente pessoal e útil, capaz de ajudá-lo a lidar com tarefas complexas e realizar ações em seu nome.

A interação com o Gemini deve ser conversacional e intuitiva. Por isso, estamos anunciando uma nova experiência com o Gemini que nos aproxima dessa visão, chamada Live, que permite que você tenha uma conversa aprofundada com o Gemini usando sua voz. Também levaremos 2 milhões de tokens para o Gemini Advanced ainda este ano, possibilitando o upload e a análise de arquivos super densos, como vídeos e códigos longos. Sissie Hsiao compartilha mais sobre isso aqui.

Gemini para Android

Com bilhões de usuários de Android em todo o mundo, estamos empolgados em apresentar uma experiência Gemini ainda mais integrada no nível do sistema operacional. Como seu novo assistente de IA, o Gemini está aqui para ajudá-lo a qualquer hora e em qualquer lugar. E incorporamos os modelos Gemini ao Android, incluindo nosso mais recente modelo no dispositivo: Gemini Nano com Multimodalidade, que processa texto, imagens, áudio e fala para proporcionar novas experiências e manter a privacidade das informações em seu dispositivo. Todas as notícias sobre o Android aqui.

Nossa abordagem responsável à IA

Continuamos a abordar a oportunidade da IA de forma ousada, com um senso de entusiasmo. Também estamos nos certificando de que faremos isso de forma responsável. Estamos desenvolvendo uma técnica de ponta que chamamos de AI-assisted red teaming, que se baseia nas descobertas inovadoras do Google DeepMind, como o AlphaGo. Além disso, expandimos nossas técnicas de marca d'água, como o SynthID, em duas novas modalidades de texto e vídeo, para que o conteúdo gerado por IA seja mais fácil de identificar. James Manyika compartilhou mais neste blog.

Criando o futuro juntos

Tudo isso mostra o importante progresso à medida que adotamos uma abordagem ousada e responsável para tornar a IA útil para todos.

Antes de encerrarmos, tenho a sensação de que alguém pode estar contando quantas vezes mencionamos a IA hoje. E presumo que adicionaremos mais algumas antes de terminarmos.

Essa contagem é mais do que apenas uma piada. Ela reflete algo muito mais profundo. Há muito tempo, nossa abordagem tem sido a primeira em IA. Nossas décadas de liderança em pesquisa foram pioneiras em muitos dos avanços modernos que impulsionam o progresso da IA, para nós e para o setor. Além disso, temos:

Infraestrutura líder mundial criada para a era da IA
Inovação de ponta em Pesquisa, agora com a tecnologia Gemini
Produtos que ajudam em escala extraordinária - incluindo 15 produtos com meio bilhão de usuários
E plataformas que permitem que todos - parceiros, clientes, criadores e todos vocês - inventem o futuro.

Esse progresso só é possível graças à nossa incrível comunidade de desenvolvedores. Vocês estão tornando isso real, por meio das experiências e dos aplicativos que criam todos os dias. Portanto, para todos aqui em Shoreline e para os milhões de pessoas que estão assistindo ao redor do mundo, um brinde às possibilidades que estão por vir e também às oportunidades de criá-las juntos.

Publicado em: