Google I/O 2023: Tornar a Inteligência Artificial mais útil para todos
Nota do editor: Aqui está um resumo do que anunciamos no Google I/O 2023. Veja todos os nossos anúncios em nossa coleção.
Após sete anos da nossa jornada enquanto empresa focada em primeiro lugar em IA, estamos agora num ponto de inflexão empolgante. Temos a oportunidade de tornar a IA ainda mais útil para as pessoas, para as empresas, para as comunidades, para todos.
Há bastante tempo que estamos a usar a IA para tornar os nossos produtos radicalmente mais úteis. Com a IA generativa, estamos a dar o próximo passo. Com uma abordagem ousada e responsável, estamos a reinventar todos os nossos principais produtos, incluindo a Pesquisa. Irá ouvir sobre isto um pouco mais tarde.
Inteligência Artificial (IA) nos nossos produtos
“Ajuda-me a escrever” no Gmail
Existem alguns exemplos de como a IA generativa está a ajudar a fazer evoluir os nossos produtos, começando com o Gmail. Em 2017, lançamos as respostas inteligentes (Smart Reply), respostas curtas que o utilizador pode selecionar com apenas um clique. Depois, veio a escrita inteligente (Smart Compose) que proporciona sugestões de escrita ao mesmo tempo que se escreve. O Smart Compose levou depois a funcionalidades de escrita mais avançadas alimentadas por IA. Só no ano passado, elas foram usadas no Workspace mais de 180 mil milhões de vezes. E agora, com um modelo generativo muito mais poderoso, estamos a dar o próximo passo no Gmail com “Ajude-me a escrever”.
Vamos imaginar que recebeu este email que o seu voo foi cancelado. A companhia aérea enviou um voucher, mas o que realmente pretende é um reembolso total. Poderá responder e usar a funcionalidade "Ajuda-me a escrever".
Basta escrever no prompt o que pretende - um e-mail a solicitar um reembolso total - e clicar em criar que irá aparecer um rascunho completo. Como podem ver, foram usados convenientemente todos os detalhes do voo do e-mail anterior. E parece bem próximo do que poderá querer enviar. Talvez queira melhorá-lo ainda mais. Neste caso, um e-mail mais elaborado poderá aumentar a probabilidade de conseguir o reembolso. E já está: eu creio que está pronto para ser enviado! “Ajuda-me a escrever” irá começar a ser disponibilizado como parte das nossas atualizações do Workspace. E, assim como com o Smart Compose, irá melhorar ao longo do tempo.
Nova visualização imersiva das rotas no Maps
Desde o início do Street View, a IA juntou milhares de milhões de imagens panorâmicas de modo a que as pessoas pudessem explorar o mundo a partir dos seus dispositivos. Na I/O do ano passado, apresentamos a visualização imersiva (Immersive View) que usa IA para criar uma representação muito fidedigna de um lugar de modo que um utilizador possa vê-lo antes de o visitar.
Agora, estamos a expandir esta mesma tecnologia para fazer o que o Maps faz de melhor: ajudar um utilizador a chegar onde deseja. Diariamente, o Google Maps proporciona 20 mil milhões de quilómetros de rotas. São muitas viagens. Imagine que podia ver, por antecipação, toda a sua viagem. Com a Visualização Imersiva de rotas, passa a ser possível que seja uma viagem a pé, de bicicleta ou a conduzir.
Imaginemos que estou na cidade de Nova Iorque e quero dar um passeio de bicicleta. O Google Maps deu-me algumas opções perto do local onde estou. A opção junto à fonte parece cénico, mas eu pretendo ter uma ideia disso primeiro. Basta clicar em Visualização Imersiva para rotas. É uma forma completamente nova de ver o meu percurso. Pode até fazer zoom para ter uma vista aérea da viagem.
Mas há mais informações disponíveis. É possível também ver a qualidade do ar, o trânsito e a meteorologia e como poderão sofrer alterações ao longo ao longo do dia.
A visualização imersiva para rotas irá começar a ser disponibilizada no verão e lançada em 15 cidades até o final do ano, incluindo Londres, Nova Iorque, Tóquio e São Francisco.
Uma nova experiência do Editor Mágico (Magic Editor) no Google Fotos
Outro produto que foi melhorado com a IA é o Google Fotos. Apresentamo-lo na Google I/O em 2015 e foi um dos nossos primeiros produtos com IA nativa. Avanços na aprendizagem de máquina tornaram possível pesquisar entre fotos coisas como pessoas, pôr do sol ou cascatas.
É claro que queremos que faça mais do que apenas pesquisar fotos - também queremos ajudá-lo a torná-las melhores. Na verdade, todos os meses, 1,7 mil milhões de imagens são editadas no Google Fotos. Os avanços em IA proporcionam-nos formas mais poderosas de o fazer. Por exemplo, a Borracha Mágica (Magic Eraser) lançado inicialmente para o Pixel, usa fotografia computacional alimentada por IA para remover distrações indesejadas. E ainda durante este ano, recorrendo a uma combinação entre compreensão semântica e IA generativa será possível fazer muito mais com a nova experiência chamada Magic Editor.
Eis um exemplo. Esta é uma ótima foto, mas como pai gostaria que o seu filho estivesse no centro de tudo. E parece que os balões foram cortados nesta foto. Aqui é possível reposicionar o aniversariante. O Editor Mágico (Magic Editor) recria automaticamente partes do banco e dos balões que não foram capturados na fotografia original. E como toque final é possível perfurar o céu. Isto também altera a iluminação do resto da foto para que a edição pareça consistente. É realmente mágico. Estamos ansiosos por lançar o Editor Mágico no Google Fotos ainda este ano.
Tornando a IA mais útil para todos
Do Gmail e do Fotos ao Google Maps, estes são apenas alguns exemplos de como a IA pode ajudar os utilizadores em momentos importantes. E há muito mais para fazer e podermos oferecer todo o potencial da IA nos produtos que conhece e de que gosta.
Hoje, temos 15 produtos que servem mais de 500 milhões de pessoas e empresas. E seis destes produtos servem, cada um, mais de dois mil milhões de utilizadores. Isto dá-nos muitas oportunidades para cumprir a nossa missão — organizar as informações do mundo e torná-las universalmente acessíveis e úteis.
É uma missão atemporal que nos parece ainda mais relevante a cada ano que passa. E olhando para o futuro, tornar a IA útil para todos é a maneira mais profunda de cumprirmos a nossa missão. Estamos a fazer isto de quatro formas importantes:
- Primeiro, melhorando o seu conhecimento e a aprendizagem, e aprofundando a sua compreensão do mundo.
- Em segundo lugar, aumentando a criatividade e a produtividade, para que possa expressar-se e fazer as coisas.
- Em terceiro lugar, permitindo que programadores e empresas criem os seus próprios produtos e serviços transformadores.
- E, finalmente, construindo e implementando a IA de forma responsável para que todos possam beneficiar de forma igualitária.
PaLM 2 + Gemini
Estamos muito entusiasmados com as oportunidades que temos pela frente. A nossa capacidade de tornar a IA útil para todos depende do avanço contínuo dos nossos modelos fundacionais. Por isso, queria reservar um momento para partilhar como estamos a abordá-los.
No ano passado, ouviram-nos falar sobre o PaLM que permitiu muitas melhorias nos nossos produtos. Hoje, estamos prontos para anunciar o nosso modelo PaLM mais recente em produção: o PaLM 2.
O PaLM 2 baseia-se na nossa investigação fundamental e na nossa infraestrutura mais recente. É altamente capaz para uma gama ampla de tarefas e fácil de implementar. Estamos hoje a anunciar mais de 25 produtos e funcionalidades alimentadas pelo PaLM 2.
Os modelos PaLM 2 proporcionam capacidades fundacionais excelentes e com vários tamanhos. Demos-lhes os nomes de Gecko, Otter, Bison e Unicorn. O Gecko é tão leve que pode funcionar em dispositivos móveis... suficientemente rápido para aplicações interativas fantásticas no dispositivo, mesmo quando está offline. Os modelos PaLM 2 são mais fortes em lógica e raciocínio graças ao amplo treino em tópicos científicos e matemáticos. Eles estão também treinados em texto multilíngue - abrangendo mais de 100 idiomas - para compreender e gerar resultados diferenciados.
Combinado com capacidades de programação poderosas, o PaLM 2 pode também ajudar programadores a colaborar em todo o mundo. Vejamos este exemplo. Vamos imaginar que está a trabalhar com um colega em Seul e está a tentar resolver um problema no código. Poderá pedir-lhe para corrigir um bug e ajudar o seu colega de equipa acrescentando comentários em coreano ao código. Ele primeiro reconhece que o código é recursivo e, em seguida, sugere uma correção. Ele explica o raciocínio por trás da correção e, como é possível ver, adicionou comentários em coreano como lhe pediu.
Embora o PaLM 2 seja altamente capaz, ele brilha realmente quando está afinado num domínio específico de conhecimento. Lançamos recentemente o Sec-PaLM ajustado para casos de uso de segurança. Ele usa IA para detectar melhor scripts maliciosos e pode ajudar os especialistas de segurança a compreender e a resolver as ameaças.
Outro exemplo é o Med-PaLM 2. Neste caso, ele está afinado com conhecimento médico. Este ajuste atingiu uma redução de 9x no raciocínio impreciso quando comparado ao modelo, aproximando-se do desempenho de especialistas clínicos que responderam ao mesmo conjunto de perguntas. Na verdade, o Med-PaLM 2 foi o primeiro grande modelo de linguagem a obter a classificação de “especialista” em perguntas ao estilo do Exame de Medicina dos EUA e é atualmente algo de ponta.
Também estamos a trabalhar para acrescentar capacidades ao Med-PaLM 2 para que possa sintetizar informações de imagens médicas, como radiografias e mamografias. É possível imaginar um colaborador de IA que ajuda os radiologistas a interpretar imagens e a comunicar os resultados. Estes são alguns exemplos de uso do PaLM 2 em domínios especializados. Mal podemos esperar para vê-lo ser usado em outros casos. E é por isso que tenho o prazer de anunciar que o PaLM 2 está, agora, disponível em pré-visualização (preview).
O PaLM 2 é o passo mais recente na nossa jornada de uma década para levar a IA de uma forma responsável a milhares de milhões de pessoas. Ele baseia-se no progresso feito por duas equipas de investigação de classe mundial, a Brain Team e a DeepMind.
Olhando para trás, e para os avanços decisivos da IA ao longo da última década, estas equipas contribuíram para um número significativo destes momentos definidores: AlphaGo, Transformers, modelos de sequência a sequência e assim por diante. Tudo isto ajudou a preparar o terreno para o ponto de inflexão em que estamos hoje.
Recentemente, juntamos estas duas equipas numa única unidade, o Google DeepMind. Recorrendo aos recursos computacionais da Google, eles estão focados em construir sistemas mais capazes, seguros e responsáveis.
Isto inclui nosso o modelo fundacional da próxima geração: Gemini, que está ainda a ser treinado. O Gemini foi criado desde o início para ser multimodal, altamente eficiente em integrações em ferramentas e APIs e construído para permitir inovações futuras, como memória e planeamento. Embora ainda seja cedo, já estamos a ver capacidades multimodais impressionantes não vistas em modelos anteriores.
Uma vez ajustado e rigorosamente testado quanto à segurança, o Gemini estará disponível em várias dimensões e capacidades, tal como o PaLM 2.
Responsabilidade da IA: ferramentas para identificar o conteúdo gerado
À medida que investimos em modelos mais capazes, também estamos a investir profundamente na responsabilidade da IA. Isto inclui ter as ferramentas para identificar conteúdo gerado sinteticamente sempre que o encontrar.
Duas abordagens importantes são as marcas d'água e metadados. A marca d'água incorpora informações diretamente no conteúdo de formas que são mantidas mesmo através de uma edição de imagem modesta. Dando um passo em frente estamos a construir os nossos modelos para incluir, desde o início, marcas d'água e outras técnicas.
Se olhar para esta imagem sintética, é impressionante como ela parece real e por isso é possível imaginar o quão importante será isto no futuro. Os metadados permitem que os criadores de conteúdo associem contexto adicional aos ficheiros originais proporcionando mais informações sempre que encontrar uma imagem. Iremos garantir que todas as nossas imagens geradas por IA tenham esses metadados. Mais informações sobre a nossa abordagem ousada e responsável disponível aqui.
Atualizações para o Bard + Workspace
À medida que os modelos ficam melhores e mais capazes, uma das oportunidades mais empolgantes passa por torná-los acessíveis às pessoas de modo a que possam envolver-se com eles diretamente.
Esta é a oportunidade que temos com o Bard, a nossa experiência de IA conversacional. Estamos a fazê-lo evoluir rapidamente. Agora, ele proporciona suporte a uma ampla gama de capacidades de programação e ficou muito mais inteligente em prompts de raciocínio e matemáticos. E, a partir de hoje, ele está a ser totalmente executado no PaLM 2. Mais sobre as últimas atualizações do Bard disponíveis aqui.
Também estamos a trazer novos recursos para o Workspace com o Duet AI, um novo colaborador de IA.
Além do "Ajuda-me a escrever" no Docs e no Gmail, o Duet AI no Google Workspace oferece ferramentas para gerar imagens a partir de descrições de texto nas apresentações e no Meet, criar planos personalizados nas folhas de cálculo e muito mais. Saiba mais sobre as últimas atualizações do Workspace.
Labs e a nossa nova experiência de pesquisa generativa
À medida que a IA continua a melhorar rapidamente, estamos focados em disponibilizar recursos úteis aos nossos utilizadores. E a partir de hoje, estamos a proporcionar uma nova maneira de visualizar e experimentar algumas das experiências no Workspace e em outros produtos. Chama-se Labs. Eu digo novo, mas a Google tem um longo histórico de utilização do Labs como forma de permitir acesso antecipado e obter feedback e, a partir desta noite, será possível aos utilizadores registarem-se.
Juntamente com as funcionalidades do Workspace que viu, uma das primeiras experiências que poderá testar no Labs envolve um dos nossos produtos fundacionais: a Pesquisa Google. A razão pela qual começamos a investir profundamente em IA há muitos anos foi porque vimos a oportunidade de melhorar a Pesquisa. E em cada avanço, tornamo-la mais útil e intuitiva.
As melhorias na compreensão da linguagem permitem-nos fazer perguntas com maior naturalidade e chegar ao conteúdo mais relevante da web. Os avanços na visão computacional introduziram novas formas de pesquisar visualmente. Agora, mesmo que não tenha palavras para descrever o que está a procurar, pode pesquisar qualquer coisa que estiver a ver com o Google Lens. Na verdade, o Lens é usado, todos os meses, para mais de 12 mil milhões de pesquisas visuais — um aumento de 4x em apenas dois anos. O Google Lens combinado com a multimodalidade levou à multipesquisa permitindo pesquisar usando simultaneamente uma imagem e texto.
À medida que olhamos para o futuro, a profunda compreensão da Google sobre a informação combinada com as capacidades únicas da IA generativa pode voltar a transformar novamente como funciona a Pesquisa, desbloqueando perguntas totalmente novas que a Pesquisa pode responder e criando experiências cada vez mais úteis que ligam o utilizador à riqueza da Web.
É claro que a aplicação da IA generativa à pesquisa está ainda a dar os primeiros passos. Pessoas de todo o mundo confiam na Pesquisa em momentos importantes. Por isso, sabemos o quanto é importante fazer isto corretamente e continuar a ganhar a confiança deles. E esta tem sido sempre a nossa estrela polar.
Por isso, estamos a abordar a inovação de forma responsável procurando os mais altos níveis de qualidade da informação como sempre fizemos desde o início. É por isso que estamos a trazer a nossa nova experiência de pesquisa generativa, primeiro para o Labs.
Tornando mais fácil para os outros inovarem
A IA não é apenas um facilitador poderoso. Ela é também uma grande mudança de plataforma. Cada empresa e organização está a pensar como conduzir a transformação. É por isso que estamos focados em tornar fácil e escalável o processo para outros inovarem com a IA.
Isto significa disponibilizar a infraestrutura de computação mais avançada - incluindo TPUs e GPUs de última geração - e expandir o acesso aos modelos fundacionais mais recentes da Google que foram rigorosamente testados nos nossos próprios produtos. Também estamos a trabalhar para disponibilizar ferramentas de classe mundial para que os clientes possam treinar, ajustar e executar os seus próprios modelos - com segurança, proteção e privacidade de nível empresarial. Conheça mais detalhes aqui com o CEO do Google Cloud, Thomas Kurian.
Impulsionar o progresso com o Android
A nossa abordagem ousada e responsável da IA pode libertar a criatividade e o potencial das pessoas. Também queremos garantir que essa ajuda chega ao maior número possível de pessoas. E fazemos isto através das nossas plataformas de computação, como o Android, e hoje estivemos a partilhar como os avanços em AI podem tornar o seu telefone ainda mais pessoal, incluindo Magic Compose, Cinematic Wallpapers e Generative AI Wallpapers.
Novos dispositivos Pixel para o seu bolso e sua casa
Também estamos a apresentar o Pixel 7a, o Pixel Fold e o Pixel Tablet para um ecossistema completo de dispositivos alimentados com IA e desenvolvidos pela Google. O Pixel 7a está disponível para compra a partir de hoje e estão também abertas as pré-encomendas para o Pixel Fold e o Pixel Tablet.
Construir o futuro juntos
Tenho refletido sobre as grandes mudanças tecnológicas nas quais todos nós participamos. A mudança com IA é grande e é por isso que é tão importante tornarmos a IA útil para todos.
Estamos a abordar isto com ousadia e com uma sensação de entusiasmo. E estamos a fazer isto com responsabilidade de uma forma que sublinha o profundo compromisso que sentimos em fazer corretamente.
Nenhuma empresa pode fazer isto sozinha. A nossa comunidade de programadores será a chave para desbloquear as enormes oportunidades que se aproximam. Estamos ansiosos para trabalhar juntos e construir juntos.