Quelle consommation énergétique pour l’IA de Google ? Nous avons fait le calcul.
L'IA permet de réaliser des avancées scientifiques, d'améliorer les soins, la santé et l'éducation, et pourrait générer des milliers de milliards de dollars de valeur économique. S’il est essentiel d’en comprendre l'empreinte environnementale, les données complètes sur l'impact énergétique et environnemental de l'inférence de l'IA (l'utilisation d'un modèle d'IA entraîné pour faire des prédictions ou générer du texte ou des images) sont limitées. À mesure que le nombre d'utilisateurs des systèmes d'IA augmente, l'efficacité de l'inférence devient de plus en plus importante.
C'est pourquoi nous publions un document technique qui décrit en détail notre méthodologie complète pour mesurer l'impact des requêtes Gemini sur la consommation d'énergie, les émissions et la consommation d'eau. Selon cette méthodologie, nous estimons que le prompt textuel médian dans les applications Gemini consomme 0,24 wattheure (Wh) d'énergie, émet 0,03 gramme d'équivalent dioxyde de carbone (gCO2e) et consomme 0,26 millilitre (environ cinq gouttes) d'eau 1 . Ces chiffres sont nettement inférieurs à de nombreuses estimations publiques. L'impact énergétique par promt est équivalent à moins de neuf secondes de télévision.
Grâce aux innovations en matière de recherche et aux améliorations apportées aux logiciels et matériel, nos systèmes d'IA deviennent plus efficaces. Par exemple, au cours des 12 derniers mois, l'énergie et l'empreinte carbone totale du prompt textuel médian des applications Gemini ont été divisées respectivement par 33 et 44 2 , tout en fournissant des réponses de meilleure qualité. Ces résultats s'appuient sur nos dernières réductions des émissions énergétiques de nos centres de données et sur nos efforts pour promouvoir l'énergie sans carbone et la reconstitution des ressources en eau. Nous sommes fiers des innovations qui nous ont permis d'améliorer notre efficacité jusqu'à présent, et nous nous engageons à continuer à apporter des améliorations substantielles. Voici un aperçu de ces efforts continus.
Calcul de l'empreinte environnementale de l'IA chez Google
Des mesures détaillées nous permettent de comparer différents modèles d'IA, ainsi que le matériel et l'énergie nécessaires à leur exécution. Elles nous permettent également d'optimiser l'efficacité à l'échelle du système, du matériel et des centres de données aux modèles eux-mêmes. En partageant notre méthodologie, nous espérons accroître la cohérence du secteur dans le calcul de la consommation de ressources et de l'efficacité de l'IA.
Il n'est pas simple de mesurer l'empreinte des charges de travail de diffusion de l'IA. Nous avons développé une approche globale qui tient compte des réalités de l'IA à l'échelle de Google, à savoir :
- Puissance dynamique du système complet : cela inclut non seulement l'énergie et l'eau utilisées par le modèle d'IA principal pendant le calcul actif, mais aussi l'utilisation réelle des puces à l'échelle de la production, qui peut être bien inférieure aux maximums théoriques.
- Machines inactives : pour garantir une haute disponibilité et une fiabilité élevée, les systèmes de production nécessitent un certain niveau de capacité provisionnée qui est inactive, mais prête à tout moment à gérer les pics de trafic ou le basculement. L'énergie consommée par ces puces inactives doit être prise en compte dans l'empreinte énergétique totale.
- CPU et RAM : l'exécution des modèles d'IA ne se fait pas uniquement dans les accélérateurs de ML comme les TPU et les GPU. Le processeur et la RAM de l'hôte jouent un rôle crucial dans le traitement de l'IA et nécessitent donc de l'énergie.
- Frais généraux des centres de données : l'énergie consommée par l'équipement informatique exécutant des charges de travail d'IA n'est qu'une partie de l'histoire. L'infrastructure qui prend en charge ces calculs (systèmes de refroidissement, distribution de l'énergie et autres charges indirectes dans le centre de données) consomme également de l'énergie. L'efficacité énergétique des frais généraux est mesurée par un indicateur appelé "Power Usage Effectiveness" (PUE).
- Consommation d'eau des centres de données : pour réduire la consommation d'énergie et les émissions associées, les centres de données consomment souvent de l'eau pour le refroidissement. En optimisant nos systèmes d'IA pour qu'ils soient plus économes en énergie, nous réduisons naturellement leur consommation globale d'eau.
De nombreux calculs actuels ne prennent en compte que la consommation active des machines, ignorant plusieurs des facteurs critiques mentionnés ci-dessus. Par conséquent, elles représentent l'efficacité théorique plutôt que l'efficacité opérationnelle réelle à grande échelle. En appliquant cette méthodologie non exhaustive qui ne prend en compte que la consommation active des TPU et GPU, nous estimons que la requête textuelle médiane de Gemini utilise 0,10 Wh d'énergie, émet 0,02 gCO2e et consomme 0,12 ml d'eau. Il s'agit au mieux d'un scénario optimiste qui sous-estime considérablement l'empreinte opérationnelle réelle de l'IA.
Les estimations de notre méthodologie complète (0,24 Wh d'énergie, 0,03 gCO2e, 0,26 ml d'eau) tiennent compte de tous les éléments critiques de la fourniture de services d'IA à l'échelle mondiale. Nous pensons qu'il s'agit de la vision la plus complète de l'empreinte globale de l'IA.
Notre approche intégrée de l'IA et de l'efficacité de l'IA
Les gains d'efficacité spectaculaires de Gemini découlent de l'approche intégrée de Google pour le développement de l'IA, qui va du matériel personnalisé aux modèles très efficaces, en passant par des systèmes de diffusion robustes qui rendent ces modèles disponibles. Nous avons intégré l'efficacité à chaque couche de l'IA, y compris :
- Des architectures de modèles plus efficaces : les modèles Gemini sont basés sur l'architecture de modèle Transformer développée par les chercheurs de Google, qui a permis d'améliorer l'efficacité de 10 à 100 fois par rapport aux architectures de pointe précédentes pour la modélisation du langage. Nous concevons des modèles avec des structures intrinsèquement efficaces comme Mixture-of-Experts (MoE) et le raisonnement hybride. Les modèles MoE, par exemple, nous permettent d'activer un petit sous-ensemble d'un grand modèle spécifiquement requis pour répondre à une requête, ce qui réduit les calculs et le transfert de données d'un facteur de 10 à 100.
- Des algorithmes et une quantification efficaces: nous affinons en permanence les algorithmes qui alimentent nos modèles avec des méthodes comme l'entraînement quantifié précis (AQT) pour maximiser l'efficacité et réduire la consommation d'énergie pour l'inférence, sans compromettre la qualité des réponses.
- Une optimisation de l'inférence et de la mise en service : nous améliorons constamment la livraison des modèles d'IA pour plus de réactivité et d'efficacité. Des technologies comme le décodage spéculatif permettent de générer plus de réponses avec moins de puces. Un modèle plus petit effectue des prédictions qui sont ensuite rapidement vérifiées par un modèle plus grand. Cette approche est plus efficace que si le modèle plus grand devait effectuer de nombreuses prédictions séquentielles par lui-même. Des techniques comme la distillation permettent de créer des modèles plus petits et plus efficaces (Gemini Flash et Flash-Lite) pour l'inférence, qui utilisent nos modèles plus grands et plus performants comme enseignants. Grâce à des modèles et du matériel de machine learning plus rapides, nous pouvons réaliser un passage à l'échelle plus étendu et plus efficace pour traiter les requêtes tout en respectant nos objectifs de latence.
- Un matériel conçu sur mesure : depuis plus de dix ans, nous concevons nos TPU de A à Z, en maximisant les performances par watt. Nos modèles d'IA et nos TPU sont conçus conjointement, ce qui permet à nos logiciels d'exploiter pleinement nos ressources matérielles, et à nos ressources matérielles d'exécuter efficacement nos futurs logiciels d'IA lorsqu'ils seront prêts. Notre dernière génération, Ironwood, est 30 fois plus écoénergétique que notre premier TPU disponible publiquement et bien plus économe en énergie que les CPU à usage général pour l'inférence.
- Optimisation de l'inactivité : notre pile de service utilise les processeurs de manière très efficace et réduit au minimum l'inactivité des TPU en déplaçant les modèles de façon dynamique en fonction de la demande en temps quasi réel, plutôt que d'adopter une approche de type "configurer et oublier".
- La pile logicielle de Machine Learning : notre compilateur de ML XLA, les kernels Pallas et les systèmes Pathways permettent d'exécuter efficacement sur notre matériel d'inférence TPU les calculs de modèles exprimés dans des systèmes de niveau supérieur comme JAX.
- Des centres de données ultra-efficaces : les centres de données de Google comptent parmi les plus efficaces du secteur, avec un PUE moyen de 1,09 pour l'ensemble du parc.
- Une exploitation responsable des centres de données : nous continuons à ajouter des capacités de production d'énergie propre pour atteindre notre objectif de décarbonation 24h/24, 7j/7, tout en progressant vers notre but de reconstituer 120 % du volume d'eau potable que nos bureaux et centres de données consomment en moyenne. Nous optimisons également nos systèmes de refroidissement en trouvant le juste équilibre entre l'énergie, l'eau et les émissions au niveau local. Pour cela, nous réalisons des évaluations sur la santé des bassins hydrographiques basées sur des données scientifiques afin de choisir le type de refroidissement et de limiter l'utilisation de l'eau dans les zones soumises à un stress hydrique élevé.
Notre engagement pour une IA efficace
Les gains d'efficacité de Gemini sont le fruit de plusieurs années de travail, mais ce n'est que le début. Conscients de la demande croissante en matière d'IA, nous investissons massivement pour réduire les coûts d'approvisionnement en énergie et la quantité d'eau nécessaires par promt. En partageant nos conclusions et notre méthodologie, nous souhaitons améliorer la compréhension de l'IA et faire progresser le secteur vers une IA plus efficace. C'est un aspect essentiel du développement d'une IA responsable.