¿Cuánta energía consume la IA de Google? Hicimos los cálculos.
La IA está impulsando avances científicos, mejorando la atención sanitaria y la educación, y podría aportar billones de dólares a la economía mundial. Comprender la huella de la IA es crucial, pero los datos exhaustivos sobre el impacto energético y ambiental del uso de la IA (la utilización de un modelo de IA entrenado para hacer predicciones o generar texto o imágenes) han sido limitados. A medida que más usuarios emplean sistemas de IA, aumenta la importancia de su eficiencia.
Es por eso que estamos publicando un documento técnico que detalla nuestra metodología integral para medir el impacto energético, de las emisiones y del agua de las consultas a Gemini. Utilizando esta metodología, estimamos que el texto promedio de las interacciones con Gemini utiliza 0,24 vatios-hora (Wh) de energía, emite 0,03 gramos de dióxido de carbono equivalente (gCO 2 e) y consume 0,26 mililitros (o aproximadamente cinco gotas) de agua: cifras que son sustancialmente inferiores a muchas estimaciones públicas. El impacto energético por interacción es equivalente a mirar televisión durante menos de nueve segundos.
Al mismo tiempo, nuestros sistemas de IA se están volviendo más eficientes gracias a innovaciones en la investigación y mejoras en la eficiencia del software y el hardware. Por ejemplo, durante un período reciente de 12 meses, la energía y la huella de carbono total del mensaje de texto promedio de Gemini Apps se redujeron 33 y 44 veces, respectivamente, al mismo tiempo que se brindaban respuestas de mayor calidad. Estos resultados se basan en nuestras últimas reducciones de emisiones de energía del centro de datos y nuestro trabajo para promover la reposición de agua y energía libre de carbono. Si bien estamos orgullosos de la innovación detrás de nuestro aumento de eficiencia hasta el momento, estamos comprometidos con continuar realizando mejoras sustanciales.
Aquí una mirada más de cerca a estos esfuerzos en curso.
Cálculo de la huella ambiental de la IA en Google
La medición detallada nos permite comparar diferentes modelos de IA, el hardware y la energía que utilizan, al tiempo que permite optimizaciones de eficiencia en todo el sistema, desde el hardware y los centros de datos hasta los modelos mismos. Al compartir nuestra metodología, esperamos aumentar la consistencia en la industria al calcular el consumo y la eficiencia de los recursos de la IA.
Medir la huella de las cargas de trabajo que ofrece la IA no es sencillo. Desarrollamos un enfoque integral que contempla las realidades de brindar servicios de IA a la escala de Google, que incluyen:
- Potencia dinámica total del sistema: esto incluye no solo la energía y el agua utilizadas por el modelo de IA principal durante el cálculo activo, sino también la utilización real del chip lograda a escala de producción, que puede ser mucho menor que los máximos teóricos.
- Máquinas inactivas: para garantizar una alta disponibilidad y confiabilidad, los sistemas de producción requieren un grado de capacidad aprovisionada que esté inactiva pero lista para manejar picos de tráfico o conmutaciones por error en cualquier momento. La energía consumida por estos chips inactivos debe tenerse en cuenta en la huella energética total.
- CPU y RAM : la ejecución del modelo de IA no ocurre únicamente en aceleradores de ML como TPU y GPU. La CPU y la RAM del host también juegan un papel crucial al servicio de la IA y consumen energía.
- Gastos generales del centro de datos: la energía consumida por los equipos de TI que ejecutan cargas de trabajo de IA es solo una parte de la historia. La infraestructura que sustenta estos cálculos (sistemas de refrigeración, distribución de energía y otros gastos generales del centro de datos) también consume energía. La eficiencia energética de los gastos generales se mide con una métrica llamada PUE (Power Usage Effectiveness). Consumo de agua en los centros de datos: para reducir el consumo de energía y las emisiones asociadas , los centros de datos a menudo consumen agua para refrigeración. A medida que optimizamos nuestros sistemas de IA para que sean más eficientes energéticamente, esto naturalmente también reduce su consumo general de agua.
Muchos cálculos actuales del consumo de energía de la IA solo incluyen el consumo activo de la máquina, pasando por alto varios de los factores críticos analizados anteriormente. Como resultado, representan una eficiencia teórica en lugar de una verdadera eficiencia operativa a escala. Cuando aplicamos esta metodología no exhaustiva que solo considera el consumo activo de TPU y GPU, estimamos que el mensaje de texto promedio en Gemini usa 0,10 Wh de energía, emite 0,02 gCO 2 e y consume 0,12 mL de agua. Este es un escenario optimista en el mejor de los casos y subestima sustancialmente la huella operativa real de la IA.
Las estimaciones de nuestra metodología integral (0,24 Wh de energía, 0,03 gCO 2 e, 0,26 mL de agua) dan cuenta de todos los elementos críticos para prestar servicio a la IA a nivel mundial. Creemos que esta es la visión más completa de la huella general de la IA.
Nuestro enfoque integral para la IA y su eficiencia
Las espectaculares mejoras en la eficiencia de Gemini se deben al enfoque “full-stack” de Google para el desarrollo de IA que abarca desde hardware personalizado y modelos de alta eficiencia hasta los robustos sistemas de servicio que hacen posibles estos modelos. Hemos incorporado eficiencia en cada capa de IA, incluidos:
- Arquitecturas de modelos más eficientes: los modelos Gemini se basan en la arquitectura de modelos Transformer desarrollada por investigadores de Google, que proporciona un aumento de eficiencia de 10 a 100 veces en comparación con las arquitecturas de última generación anteriores para el modelado del lenguaje. Diseñamos modelos con estructuras inherentemente eficientes como la mezcla de expertos (MoE) y el razonamiento híbrido . Los modelos MoE, por ejemplo, nos permiten activar un pequeño subconjunto de un modelo grande específicamente requerido para responder a una consulta, reduciendo los cálculos y la transferencia de datos en un factor de 10 a 100 veces.
- Algoritmos eficientes y cuantificación: refinamos continuamente los algoritmos que impulsan nuestros modelos con métodos como Accurate Quantized Training (AQT) para maximizar la eficiencia y reducir el consumo de energía para el servicio, sin comprometer la calidad de la respuesta.
- Inferencia y entrega optimizadas: mejoramos constantemente la entrega de modelos de IA para lograr capacidad de respuesta y eficiencia. Tecnologías como la decodificación especulativa ofrecen más respuestas con menos chips al permitir que un modelo más pequeño haga predicciones que luego son verificadas rápidamente por un modelo más grande, lo que es más eficiente que tener el modelo más grande haciendo muchas predicciones secuenciales por sí solo. Técnicas como la destilación crean modelos más pequeños y eficientes (Gemini Flash y Flash-Lite) que utilizan nuestros modelos más grandes y capaces como maestros. Un hardware y modelos de aprendizaje automático más rápidos nos permiten utilizar tamaños de lotes más grandes y eficientes al procesar solicitudes, sin dejar de cumplir con nuestros objetivos de latencia.
- Hardware personalizado: hemos estado diseñando nuestras TPU desde cero durante más de una década para maximizar el rendimiento por vatio. También codiseñamos nuestros modelos de IA y TPU, lo que garantiza que nuestro software aproveche al máximo nuestro hardware y que nuestro hardware pueda ejecutar de manera eficiente nuestro futuro software de IA cuando ambos estén listos. Nuestra TPU de última generación, Ironwood , es 30 veces más eficiente energéticamente que nuestra primera TPU disponible públicamente y mucho más eficiente energéticamente que las CPU de propósito general para inferencia.
- Inactividad optimizada: nuestro servicio de pila hace un uso altamente eficiente de las CPU y minimiza la inactividad de las TPU al mover modelos dinámicamente en función de la demanda casi en tiempo real, en lugar de utilizar un enfoque de "configurarlo y olvidarlo".
- Pila de software ML: nuestro compilador XLA ML, los núcleos Pallas y los sistemas Pathways permiten que los cálculos de modelos expresados en sistemas de nivel superior como JAX se ejecuten de manera eficiente en nuestro hardware de servicio TPU.
- Centros de datos ultraeficientes: Los centros de datos de Google se encuentran entre los más eficientes de la industria y operan con un PUE promedio de 1,09 para toda la flota .
- Operaciones responsables del centro de datos: seguimos sumando generación de energía limpia en pos de nuestra ambición de estar libres de carbono las 24 horas del día, los 7 días de la semana , mientras avanzamos en nuestro objetivo de reponer el 120 % del agua dulce que consumimos en promedio en nuestras oficinas y centros de datos. También optimizamos nuestros sistemas de enfriamiento, balanceando el equilibrio local entre energía, agua y emisiones, mediante la realización de evaluaciones de la salud de las cuencas hidrográficas respaldadas por la ciencia para orientar la selección del tipo de enfriamiento y limitar el uso de agua en lugares de alto estrés.
Nuestro compromiso con una IA eficiente
Las ganancias de eficiencia de Gemini son el resultado de años de trabajo, pero esto es solo el comienzo. Reconociendo que la demanda de IA está creciendo, estamos invirtiendo fuertemente en reducir los costos de suministro de energía y el agua requerida por prompt. Al compartir nuestros hallazgos y metodología, nuestro objetivo es impulsar el progreso de toda la industria hacia una IA más eficiente. Esto es esencial para el desarrollo responsable de la IA.