¿Cuánta energía consume la IA de Google? Hemos hecho los cálculos
La IA está permitiendo hacer descubrimientos científicos, mejorar la atención sanitaria y la educación, y podría aportar billones de dólares en valor económico. Es fundamental comprender la huella medioambiental de la IA, pero los datos exhaustivos sobre el impacto energético y medioambiental de la inferencia de la IA (el uso de un modelo de IA entrenado para hacer predicciones o generar texto o imágenes) han sido limitados. A medida que más usuarios utilizan sistemas de IA, aumenta la importancia de la eficiencia de la inferencia.
Por eso, hemos publicado un informe técnico en el que se detalla nuestra metodología integral para medir el impacto de las peticiones de Gemini en el consumo de energía, las emisiones y el uso de agua. Según esta metodología, estimamos que la mediana de las peticiones de texto de las aplicaciones de Gemini utiliza 0,24 vatios-hora (Wh) de energía, emite 0,03 gramos de dióxido de carbono equivalente (gCO2e) y consume 0,26 mililitros (o unas cinco gotas) de agua 1 , cifras que son considerablemente inferiores a muchas de las estimaciones públicas. El impacto energético por petición es equivalente a ver la televisión durante menos de nueve segundos.
Gracias a las innovaciones en investigación y a las mejoras en la eficiencia del software y el hardware, nuestros sistemas de IA son cada vez más eficientes. Por ejemplo, en un periodo reciente de 12 meses, la energía y la huella de carbono total de la petición de texto mediana de las aplicaciones de Gemini se redujeron 33 y 44 veces, respectivamente 2 , y todo ello ofreciendo respuestas de mayor calidad. Estos resultados se basan en nuestras últimas reducciones de emisiones de energía en los centros de datos y en nuestro trabajo para promover la energía sin emisiones de carbono y la reposición de agua. Aunque estamos orgullosos de la innovación que ha hecho posible las mejoras de eficiencia que hemos conseguido hasta ahora, nos comprometemos a seguir haciendo mejoras sustanciales. Aquí tienes más información sobre estas iniciativas.
Cálculo de la huella medioambiental de la IA en Google
Las mediciones detalladas nos permiten comparar distintos modelos de IA, así como el hardware y la energía que utilizan, al tiempo que posibilitan optimizaciones de eficiencia en todo el sistema, desde el hardware y los centros de datos hasta los propios modelos. Al compartir nuestra metodología, esperamos aumentar la coherencia en todo el sector a la hora de calcular el consumo de recursos y la eficiencia de la IA.
Medir la huella de las cargas de trabajo de servicio de IA no es sencillo. Hemos desarrollado una estrategia integral que tiene en cuenta las realidades de ofrecer IA a la escala de Google, que incluyen lo siguiente:
- Potencia dinámica del sistema completo: incluye no solo la energía y el agua que utiliza el modelo de IA principal durante la computación activa, sino también la utilización real de los chips a escala de producción, que puede ser mucho menor que los máximos teóricos.
- Máquinas inactivas: para asegurar una alta disponibilidad y fiabilidad, los sistemas de producción requieren un grado de capacidad aprovisionada que está inactiva pero lista en cualquier momento para gestionar picos de tráfico o conmutaciones por error. La energía que consumen estos chips inactivos debe tenerse en cuenta en la huella energética total.
- CPU y RAM: la ejecución de modelos de IA no se produce únicamente en aceleradores de aprendizaje automático como las TPUs y las GPUs. La CPU y la RAM del host desempeñan un papel crucial en el servicio de la IA y, por tanto, requieren energía.
- Gastos generales de los centros de datos: la energía que consumen los equipos de TI que ejecutan cargas de trabajo de IA es solo una parte de la historia. La infraestructura que respalda estos cálculos, incluidos los sistemas de refrigeración, la distribución de energía y otros gastos generales de centro de datos, también consume energía. La eficiencia energética de los gastos generales se mide con una métrica llamada PUE (eficiencia energética).
- Consumo de agua en centros de datos: para reducir el consumo de energía y las emisiones asociadas, los centros de datos suelen consumir agua para refrigerarse. A medida que optimizamos nuestros sistemas de IA para que sean más eficientes energéticamente, su consumo general de agua también disminuye de forma natural.
Muchos cálculos actuales solo incluyen el consumo de las máquinas activas, por lo que pasan por alto varios de los factores críticos mencionados anteriormente. Por eso, representan la eficiencia teórica en lugar de la eficiencia operativa real a gran escala. Cuando aplicamos esta metodología no exhaustiva que solo tiene en cuenta el consumo de TPU y GPU activas, estimamos que la mediana de las peticiones de texto de Gemini usa 0,10 Wh de energía, emite 0,02 gCO2e y consume 0,12 mL de agua. Este es un escenario optimista en el mejor de los casos y subestima sustancialmente la huella operativa real de la IA.
Las estimaciones de nuestra metodología integral (0,24 Wh de energía, 0,03 gCO2e y 0,26 ml de agua) tienen en cuenta todos los elementos críticos del servicio de IA a nivel mundial. Creemos que esta es la visión más completa de la huella general de la IA.
Nuestro enfoque full-stack de la IA y la eficiencia de la IA
Las espectaculares mejoras de eficiencia de Gemini se deben al enfoque integral de Google en el desarrollo de la IA, que abarca desde hardware personalizado hasta modelos muy eficientes y sistemas de servicio sólidos que hacen que estos modelos estén disponibles. Hemos integrado la eficiencia en cada capa de la IA, lo que incluye:
- Arquitecturas de modelos más eficientes: los modelos de Gemini se basan en la arquitectura de modelos Transformer desarrollada por investigadores de Google, que proporcionó un aumento de la eficiencia de entre 10 y 100 veces en comparación con las arquitecturas de modelado de lenguaje más avanzadas hasta el momento. Diseñamos modelos con estructuras intrínsecamente eficientes, como Mixture-of-Experts (MoE) y el razonamiento híbrido. Los modelos MoE, por ejemplo, nos permiten activar un pequeño subconjunto de un modelo grande que se necesita específicamente para responder a una consulta, lo que reduce los cálculos y la transferencia de datos entre 10 y 100 veces.
- Algoritmos eficientes y cuantificación: refinamos continuamente los algoritmos que usan nuestros modelos con métodos como Accurate Quantized Training (AQT) para maximizar la eficiencia y reducir el consumo de energía al servir las respuestas sin comprometer su calidad.
- Inferencia y servicio optimizados: mejoramos constantemente la entrega de modelos de IA para que sean más eficientes y tengan una mayor capacidad de respuesta. Tecnologías como Speculative Decoding permiten ofrecer más respuestas con menos chips. Para ello, un modelo más pequeño hace predicciones que luego verifica rápidamente un modelo más grande. Este proceso es más eficiente que si el modelo más grande hiciera muchas predicciones secuenciales por sí solo. Las técnicas como la destilación crean modelos más pequeños y eficientes (Gemini Flash y Flash-Lite) que utilizan nuestros modelos más grandes y potentes como profesores. El hardware y los modelos de aprendizaje automático más rápidos nos permiten usar tamaños de lote más grandes y eficientes al gestionar solicitudes, sin dejar de cumplir nuestros objetivos de latencia.
- Hardware personalizado: llevamos más de una década diseñando nuestras TPUs desde cero para maximizar el rendimiento por vatio. Nuestros modelos de IA y TPUs se diseñan conjuntamente, lo que garantiza que nuestro software aproveche al máximo nuestro hardware y que éste pueda ejecutar de forma eficiente nuestro futuro software de IA cuando ambos estén listos. Nuestra última generación, Ironwood, es 30 veces más eficiente energéticamente que nuestra primera TPU disponible públicamente y mucho más eficiente que las CPUs de uso general para la inferencia.
- Optimización del tiempo de inactividad: nuestra pila de servicios hace un uso muy eficiente de las CPUs y minimiza el tiempo de inactividad de las TPUs moviendo dinámicamente los modelos en función de la demanda casi en tiempo real, en lugar de seguir un enfoque de «configurar y olvidar».
- Pila de software de aprendizaje automático: nuestro compilador de aprendizaje automático XLA, los kernels de Pallas y los sistemas de Pathways permiten que las computaciones de modelos expresadas en sistemas de nivel superior como JAX se ejecuten de forma eficiente en nuestro hardware de servicio de TPUs.
- Centros de datos ultraeficientes: los centros de datos de Google se encuentran entre los más eficientes del sector, con una PUE media de 1,09 en toda la flota.
- Operaciones responsables en los centros de datos: seguimos añadiendo generación de energía limpia para alcanzar nuestro objetivo de energía libre de carbono las 24 horas, al tiempo que avanzamos en nuestro propósito de reponer el 120% del agua dulce que consumimos de media en nuestras oficinas y centros de datos. También optimizamos nuestros sistemas de refrigeración, equilibrando la compensación local entre energía, agua y emisiones mediante la realización de evaluaciones de la salud de las cuencas hidrográficas basadas en la ciencia para orientar la selección del tipo de refrigeración y limitar el uso de agua en lugares de alto estrés hídrico.
Nuestro compromiso con la IA eficiente
Las mejoras de eficiencia de Gemini son el resultado de años de trabajo, pero esto es solo el principio. Como sabemos que la demanda de IA está creciendo, estamos invirtiendo mucho en reducir los costes de aprovisionamiento de energía y el agua que se necesita por petición. Al compartir nuestros hallazgos y nuestra metodología, queremos ofrecer una comprensión más profunda e impulsar el progreso en todo el sector hacia una IA más eficiente. Esto es esencial para desarrollar la IA de forma responsable.