Quanta energia a IA do Google usa? Fizemos as contas
A IA está gerando avanços científicos, melhorando a saúde e a educação, e pode acrescentar trilhões à economia global. Entender a pegada da IA é crucial, mas dados completos sobre o impacto energético e ambiental da inferência de IA — o uso de um modelo treinado para fazer previsões ou gerar texto ou imagens — são limitados. À medida que mais usuários utilizam sistemas de IA, a importância da eficiência da inferência aumenta.
É por isso que estamos lançando um artigo técnico detalhando nossa metodologia abrangente para medir o impacto energético, de emissões e hídrico dos prompts Gemini. Usando essa metodologia, estimamos que o prompt de texto mediano dos aplicativos do Gemini usa 0,24 watts-hora (Wh) de energia, emite 0,03 gramas de dióxido de carbono equivalente (gCO 2 e) e consome 0,26 mililitros (ou cerca de cinco gotas) de água — números que são substancialmente menores do que muitas estimativas públicas. O impacto energético por prompt é equivalente a assistir TV por menos de nove segundos.
Ao mesmo tempo, nossos sistemas de IA estão se tornando mais eficientes por meio de inovações em pesquisas e melhorias na eficiência de software e hardware. Por exemplo, ao longo de um período recente de 12 meses, a energia e a pegada de carbono total do prompt de texto médio dos aplicativos do Gemini caíram 33x e 44x, respectivamente, ao mesmo tempo em que forneciam respostas de maior qualidade.
Esses resultados são baseados em nossas últimas reduções de emissões de energia em data centers e em nosso trabalho para promover energia livre de carbono e reposição de água. Embora estejamos orgulhosos da inovação por trás dos nossos ganhos de eficiência até agora, estamos comprometidos em continuar realizando melhorias substanciais. Veja aqui uma análise mais detalhada desses esforços contínuos.
Calculando a pegada ambiental da IA no Google
A medição detalhada nos permite comparar diferentes modelos de IA, o hardware e a energia em que eles são executados, ao mesmo tempo em que permite otimizações de eficiência em todo o sistema, desde hardware e data centers até os próprios modelos. Ao compartilhar nossa metodologia, esperamos aumentar a consistência em todo o setor no cálculo do consumo de recursos e da eficiência da IA.
Medir a pegada das cargas de trabalho de atendimento à IA não é simples. Desenvolvemos uma abordagem abrangente que considera as realidades de servir IA na escala do Google, que incluem:
- Potência dinâmica total do sistema: isso inclui não apenas a energia e a água usadas pelo modelo primário de IA durante a computação ativa, mas também a utilização real do chip alcançada em escala de produção, que pode ser muito menor do que os máximos teóricos.
- Máquinas ociosas: para garantir alta disponibilidade e confiabilidade, os sistemas de produção exigem um grau de capacidade provisionada que esteja ociosa, mas pronta para lidar com picos de tráfego ou failover a qualquer momento. A energia consumida por esses chips ociosos deve ser considerada na pegada energética total.
- CPU e RAM : a execução do modelo de IA não acontece apenas em aceleradores de Machine Learning (ML), como TPUs e GPUs. A CPU e a RAM do host também desempenham um papel crucial no atendimento à IA e usam energia.
- Despesa adicional do data center: a energia consumida pelos equipamentos de TI que executam cargas de trabalho de IA é apenas parte da história. A infraestrutura que dá suporte a esses cálculos — sistemas de resfriamento, distribuição de energia e outras despesas gerais do data center — também consome energia. A eficiência energética é medida por uma métrica chamada Eficácia do Uso de Energia (PUE).
- Consumo de água do data center : para reduzir o consumo de energia e as emissões associadas, os data centers geralmente consomem água para resfriamento. À medida que otimizamos nossos sistemas de IA para serem mais eficientes em termos de energia, isso naturalmente também diminui seu consumo geral de água.
Muitos cálculos atuais de consumo de energia da IA incluem apenas o consumo ativo da máquina, ignorando vários dos fatores críticos discutidos acima. Como resultado, elas representam eficiência teórica em vez da verdadeira eficiência operacional em escala. Quando aplicamos essa metodologia não abrangente que considera apenas o consumo ativo de TPU e GPU, estimamos que o prompt de texto médio do Gemini usa 0,10 Wh de energia, emite 0,02 gCO 2 e e consome 0,12 mL de água. Este é um cenário otimista, na melhor das hipóteses, e subestima substancialmente a real pegada operacional da IA.
As estimativas da nossa metodologia abrangente (0,24 Wh de energia, 0,03 gCO 2 e, 0,26 mL de água) representam todos os elementos críticos para atender à IA globalmente. Acreditamos que esta seja a visão mais completa da pegada geral da IA.
Nossa abordagem completa para IA — e eficiência de IA
Os ganhos drásticos de eficiência da Gemini decorrem da abordagem completa do Google para o desenvolvimento de IA — desde hardware personalizado e modelos altamente eficientes até os sistemas de serviço robustos que tornam esses modelos possíveis. Incorporamos eficiência em todas as camadas da IA, incluindo:
- Arquiteturas de modelo mais eficientes: os modelos Gemini são criados com base na arquitetura do modelo Transformer desenvolvida por pesquisadores do Google, o que proporciona um aumento de eficiência de 10 a 100 vezes em relação às arquiteturas de última geração para modelagem de linguagem. Projetamos modelos com estruturas inerentemente eficientes, como Mistura de Especialistas (MoE) e raciocínio híbrido . Os modelos MoE, por exemplo, nos permitem ativar um pequeno subconjunto de um modelo grande especificamente necessário para responder a uma consulta, reduzindo os cálculos e a transferência de dados por um fator de 10 a 100 vezes.
- Algoritmos e quantização eficientes: refinamos continuamente os algoritmos que alimentam nossos modelos com métodos como o Treinamento Quantizado Preciso (AQT) para maximizar a eficiência e reduzir o consumo de energia para servir, sem comprometer a qualidade da resposta.
- Inferência e disponibilização otimizadas: melhoramos constantemente a entrega do modelo de IA para maior capacidade de resposta e eficiência. Tecnologias como decodificação especulativa fornecem mais respostas com menos chips, permitindo que um modelo menor faça previsões que são então rapidamente verificadas por um modelo maior, o que é mais eficiente do que fazer com que o modelo maior faça muitas previsões sequenciais sozinho. Técnicas como a destilação criam modelos menores e mais eficientes (Gemini Flash e Flash-Lite) para servir, usando nossos modelos maiores e mais capazes como professores. Hardware e modelos de aprendizado de máquina mais rápidos nos permitem usar tamanhos de lote maiores e mais eficientes ao lidar com solicitações, ao mesmo tempo em que atingimos nossas metas de latência.
- Hardware personalizado: projetamos nossos TPUs do zero há mais de uma década para maximizar o desempenho por watt. Também co-projetamos nossos modelos de IA e TPUs, garantindo que nosso software aproveite ao máximo nosso hardware — e que nosso hardware seja capaz de executar com eficiência nosso futuro software de IA quando ambos estiverem prontos. Nossa TPU de última geração, a Ironwood , é 30 vezes mais eficiente em termos de energia do que nossa primeira TPU disponível publicamente e muito mais eficiente em termos de energia do que CPUs de uso geral para inferência.
- Ociosidade otimizada: nossa pilha de serviços faz uso altamente eficiente de CPUs e minimiza a ociosidade de TPU movendo modelos dinamicamente com base na demanda em tempo quase real, em vez de usar uma abordagem de "configurar e esquecer".
- Pilha de software ML: Nosso compilador XLA ML, kernels Pallas e sistemas Pathways permitem que cálculos de modelos expressos em sistemas de nível superior, como JAX, sejam executados com eficiência em nosso hardware de serviço TPU.
- Data centers ultra eficientes: os data centers do Google estão entre os mais eficientes do setor, operando com uma PUE média de 1,09 em toda a frota.
- Operações responsáveis em data centers: continuamos a adicionar geração de energia limpa em busca de nossa ambição de sermos livres de carbono 24 horas por dia, 7 dias por semana, ao mesmo tempo em que avançamos em nossa meta de repor 120% da água doce que consumimos em média em nossos escritórios e data centers. Também otimizamos nossos sistemas de resfriamento, equilibrando o equilíbrio local entre energia, água e emissões, realizando avaliações científicas da saúde das bacias hidrográficas para orientar a seleção do tipo de resfriamento e limitar o uso de água em locais de alto estresse.
Nosso compromisso com a IA eficiente
Os ganhos de eficiência da Gemini são resultado de anos de trabalho, mas isso é só o começo. Reconhecendo que a demanda por IA está crescendo, estamos investindo pesadamente na redução dos custos de fornecimento de energia e água necessária por solicitação. Ao compartilhar nossas descobertas e metodologia, pretendemos impulsionar o progresso de todo o setor em direção a uma IA mais eficiente. Isso é essencial para o desenvolvimento responsável da IA.