Quanta energia usa a IA da Google? Fizemos as contas
A IA está a desbloquear avanços científicos, a melhorar os cuidados de saúde e a educação, e pode acrescentar biliões à economia global. Compreender a pegada ambiental da IA é crucial, mas os dados completos sobre a energia e o impacto ambiental da inferência da IA, a utilização de um modelo de IA treinado para fazer previsões ou gerar texto ou imagens, têm sido limitados. À medida que mais utilizadores usam sistemas de IA, a importância da eficiência da inferência aumenta.
É por isso que estamos a publicar um documento técnico que detalha a nossa metodologia abrangente para medir o impacto das instruções do Gemini na energia, nas emissões e na água. Usando esta metodologia, estimamos que a mediana de utilizações de comandos de texto das apps Gemini usa 0,24 watts-hora (Wh) de energia, emite 0,03 gramas de equivalente de dióxido de carbono (gCO2e) e consome 0,26 mililitros (ou cerca de cinco gotas) de água 1 , números substancialmente inferiores a muitas estimativas públicas. O impacto energético por comando é equivalente a ver televisão durante menos de nove segundos.
Ao mesmo tempo, os nossos sistemas de IA estão a tornar-se mais eficientes através de inovações de investigação e melhorias de eficiência de software e hardware. Por exemplo, durante um período recente de 12 meses, a energia e a pegada de carbono total do comando de texto das Apps Gemini medianas diminuíram 33 e 44 vezes, respetivamente 2 , ao mesmo tempo que ofereciam respostas de maior qualidade. Estes resultados baseiam-se nas nossas mais recentes reduções de emissões de energia dos centros de dados e no nosso trabalho para promover a energia sem carbono e o reabastecimento de água. Embora nos orgulhemos da inovação por detrás dos nossos ganhos de eficiência até agora, estamos empenhados em continuar a fazer melhorias substanciais. Aqui está uma análise mais detalhada destes esforços contínuos.
Calcular a pegada ambiental da IA na Google
A medição detalhada permite-nos comparar diferentes modelos de IA e o hardware e a energia em que são executados, ao mesmo tempo que permite otimizações de eficiência em todo o sistema, desde o hardware e os centros de dados até aos próprios modelos. Ao partilhar a nossa metodologia, esperamos aumentar a consistência em toda a indústria no cálculo do consumo de recursos e da eficiência da IA.
Medir a pegada das cargas de trabalho de publicação de IA não é simples. Desenvolvemos uma abordagem abrangente que considera as realidades da publicação de IA à escala da Google, que incluem:
- Potência dinâmica do sistema completo: isto inclui não só a energia e a água usadas pelo modelo de IA principal durante a computação ativa, mas também a utilização real do chip alcançada à escala de produção, que pode ser muito inferior aos máximos teóricos.
- Máquinas inativas: para garantir uma elevada disponibilidade e fiabilidade, os sistemas de produção requerem um grau de capacidade disponível que está inativa, mas pronta para lidar com picos de tráfego ou com a comutação por falha em qualquer momento. A energia consumida por estes chips inativos tem de ser tida em conta no impacto energético total.
- CPU e RAM: a execução de modelos de IA não acontece apenas em aceleradores de ML, como TPUs e GPUs. A CPU e a RAM do anfitrião também desempenham um papel crucial na disponibilização de IA e no consumo de energia.
- Sobrecarga do centro de dados: a energia consumida pelo equipamento de TI que executa cargas de trabalho de IA é apenas parte da história. A infraestrutura que suporta estes cálculos, como os sistemas de arrefecimento, a distribuição de energia e outros custos gerais dos centros de dados, também consome energia. A eficiência energética geral é medida por uma métrica denominada Power Usage Effectiveness (PUE).
- Consumo de água dos centros de dados: para reduzir o consumo de energia e as emissões associadas, os centros de dados consomem frequentemente água para arrefecimento. À medida que otimizamos os nossos sistemas de IA para serem mais eficientes em termos energéticos, isto diminui naturalmente o seu consumo global de água.
Muitos cálculos atuais de consumo de energia da IA incluem apenas o consumo ativo da máquina, ignorando vários dos fatores críticos debatidos acima. Como resultado, representam a eficiência teórica em vez da verdadeira eficiência operacional em escala. Quando aplicamos esta metodologia não abrangente que só considera o consumo ativo de TPU e GPU, estimamos que o pedido de texto mediano do Gemini usa 0,10 Wh de energia, emite 0,02 gCO2e e consome 0,12 ml de água. Este é, no melhor dos casos, um cenário otimista e subestima substancialmente a pegada operacional real da IA.
As estimativas da nossa metodologia abrangente (0,24 Wh de energia, 0,03 gCO2e, 0,26 ml de água) têm em conta todos os elementos críticos da disponibilização da IA a nível global. Acreditamos que esta é a visão mais completa da pegada global da IA.
A nossa abordagem de pilha completa à IA e à eficiência da IA
Os ganhos de eficiência dramáticos do Gemini resultam da abordagem completa da Google ao desenvolvimento de IA, desde hardware personalizado e modelos altamente eficientes, até aos sistemas de serviço robustos que tornam estes modelos possíveis. Criámos eficiência em todas as camadas da IA, incluindo:
- Arquiteturas de modelos mais eficientes: os modelos do Gemini são baseados na arquitetura de modelos Transformer desenvolvida por investigadores da Google, que proporciona um aumento de eficiência de 10 a 100 vezes em relação às arquiteturas de modelagem de linguagem mais avançadas anteriores. Concebemos modelos com estruturas inerentemente eficientes, como a Mixture-of-Experts (MoE) e o raciocínio híbrido. Por exemplo, os modelos MoE permitem-nos ativar um pequeno subconjunto de um modelo grande especificamente necessário para responder a uma consulta, reduzindo os cálculos e a transferência de dados por um fator de 10 a 100 vezes.
- Algoritmos eficientes e quantificação: refinamos continuamente os algoritmos que alimentam os nossos modelos com métodos como o Accurate Quantized Training (AQT) para maximizar a eficiência e reduzir o consumo de energia para o fornecimento, sem comprometer a qualidade da resposta.
- Inferência e apresentação otimizadas: melhoramos constantemente a apresentação do modelo de IA para aumentar a capacidade de resposta e a eficiência. Tecnologias como a descodificação especulativa servem mais respostas com menos chips, permitindo que um modelo mais pequeno faça previsões que são depois rapidamente verificadas por um modelo maior, o que é mais eficiente do que ter o modelo maior a fazer muitas previsões sequenciais por si só. Técnicas como a destilação criam modelos mais pequenos e eficientes (Gemini Flash e Flash-Lite) para servir que usam os nossos modelos maiores e mais avançados como professores. O hardware e os modelos de aprendizagem automática mais rápidos permitem-nos usar tamanhos de lotes maiores e mais eficientes ao lidar com pedidos, mantendo os nossos objetivos de latência.
- Hardware personalizado: há mais de uma década que concebemos as nossas TPUs de raiz para maximizar o desempenho por watt. Também concebemos em conjunto os nossos modelos de IA e TPUs, garantindo que o nosso software tira total partido do nosso hardware e que o nosso hardware consegue executar de forma eficiente o nosso futuro software de IA quando ambos estiverem prontos. A nossa TPU de última geração, Ironwood, é 30 vezes mais eficiente em termos de energia do que a nossa primeira TPU disponível publicamente e muito mais eficiente em termos de energia do que as CPUs de uso geral para inferência.
- Inatividade otimizada: a nossa pilha de fornecimento usa as CPUs de forma altamente eficiente e minimiza a inatividade das TPUs movendo dinamicamente os modelos com base na procura em tempo quase real, em vez de usar uma abordagem de "configurar e esquecer".
- Pilha de software de ML: o nosso compilador de ML XLA, os kernels Pallas e os sistemas Pathways permitem que os cálculos de modelos expressos em sistemas de nível superior, como o JAX, sejam executados de forma eficiente no nosso hardware de fornecimento de TPUs.
- Centros de dados ultraeficientes: os centros de dados da Google estão entre os mais eficientes da indústria, operando com uma PUE média de 1,09 em todo o parque.
- Operações responsáveis de centros de dados: continuamos a adicionar geração de energia limpa na prossecução da nossa ambição de energia sem carbono 24 horas por dia, 7 dias por semana, enquanto avançamos com o nosso objetivo de reabastecer 120% da água doce que consumimos em média nos nossos escritórios e centros de dados. Também otimizamos os nossos sistemas de arrefecimento, ao equilibrar a compensação local entre energia, água e emissões através da realização de avaliações de saúde de bacias hidrográficas com base científica para orientar a seleção do tipo de arrefecimento e limitar a utilização de água em locais de elevado stress.
O nosso compromisso com a IA eficiente
Os ganhos de eficiência do Gemini são o resultado de anos de trabalho, mas este é apenas o início. Reconhecendo que a procura de IA está a crescer, estamos a investir fortemente na redução dos custos de aprovisionamento de energia e da água necessária por comando. Ao partilhar as nossas conclusões e metodologia, pretendemos impulsionar o progresso em toda a indústria no sentido de uma IA mais eficiente. Isto é essencial para o desenvolvimento responsável da IA.