Insights / Blog

Sappiamo troppo poco del consumo energetico dell’AI

Artificial Intelligence Energy Consumption

Non è detto che qualcuno se lo stesse chiedendo, ma l’immagine di copertina di questo blog post è stata realizzata tramite GPT-4o. Non è nemmeno detto foste interessati a saperlo, ma è plausibile che siate interessati alla prossima domanda: quanta energia è stata consumata per la creazione di quest’immagine? (per totale trasparenza: la scelta di realizzarla per mezzo di un modello di intelligenza artificiale è stata volta ad introdurre per direttissima il tema di questo blog post, che ormai credo abbiate colto).

La risposta più veloce e che vi permette di passare alla vostra prossima attività giornaliera è: nessuno lo sa. Quella poco più articolata, ma ancora poco soddisfacente è: qualcuno lo sa, ma non è disposto a divulgarne la risposta, e a noialtri non resta che fare delle stime. Il restante contenuto dell’articolo invece sarà volto a tentare di fornire una risposta che, in ogni caso, comporterà la partenza da alcune assunzioni.

Il 10 giugno Sam Altman, l’amministratore delegato di OpenAI, ha pubblicato sul suo blog personale un post dal titolo “The Gentle Singularity”, in cui ha riportato un bilancio dei traguardi raggiunti dalla ricerca sull’intelligenza artificiale e qualche previsione sulla costruzione di una superintelligenza, o ASI. Il passaggio che ha, però, catturato le maggiori attenzioni dei commentatori e degli esperti del settore è stato un altro. Altman ha riportato una cifra che, a detta sua, rappresenterebbe il consumo energetico di ChatGPT per la query media: 0.34 wattora, o 1224 Joule, la quantità di energia necessaria ad alimentare un forno a microonde per circa un secondo e mezzo. Cosa vuol dire, davvero, “query media”? La cifra di Altman prende in considerazione anche i costi di addestramento del modello? Quanto è utile la cifra fornita, se non abbiamo alcuna informazione riguardo la sua determinazione? In un’intervista alla rivista tecnologica Wired Sasha Luccioni, lead climate researcher di Hugging Face, non ha usato mezze misure per dire la propria. Secondo Luccioni siamo stati, finora, esposti a stime che non hanno davvero senso e che sono state prese per oro colato: ad esempio la frequentemente citata stima secondo la quale una query in ChatGPT consumerebbe circa 10 volte l’ammontare di energia di una ricerca tramite Google.

epoch-ai
Una visualizzazione dati estratta da un’indagine dell’istituto di ricerca Epoch AI, che non si discosta troppo dalla stima di Altman. Vi lascio il link all’indagine qui.

L’informazione riguardo il consumo energetico dell’addestramento di un LLM, o di quello determinato da una singola query, è trattata dalla gran parte delle aziende del settore come un segreto aziendale. Le aziende proprietarie dei più diffusi ed utilizzati modelli closed-source – OpenAI, Anthropic e Google – non forniscono alcun numero, ed è dunque assai complesso fare stime sull’effettivo impatto ambientale del settore.

Un tentativo ben riuscito è stato fatto dai reporter del MIT Technology Review, in un’analisi finanziata dal Tarbell Center for AI Journalism. I fattori da tenere in considerazione nel calcolo del consumo energetico di un LLM sono diversi: il costo di addestramento; quello di inferenza; dove sono collocati i data center in cui sono stipate le GPU; qual è l’impronta carbonica dello stato o della regione in cui sono collocati quei data center; quanto è grosso il modello, inteso come numero di parametri; quanto è complessa la query; quale ci si aspetta sia l’output di quella query. Insomma, la risposta è che dipende da tantissime variabili. Andiamo in ordine.

mit-title
L’accattivante titolo dell’articolo del MIT Technology Review.

Un modello di intelligenza artificiale va addestrato e questo addestramento ha un costo in termini economici ed energetici. Secondo una stima fornita dalla stessa OpenAI, il costo di addestramento del modello GPT-4 di ChatGPT ha superato i 100 milioni di dollari e ha consumato 50 gigawattora. Per contesto: 50 gigawattora equivalgono al consumo energetico giornaliero di 18500 famiglie italiane. Per ancora maggior contesto: il flusso catalizzatore di Doc Brown, cruciale per spedire Marty McFly e la DeLorean nel futuro, necessiterebbe di circa 41 ore per produrre la quantità di energia necessaria ad allenare GPT-4.

doc-brown
Grande Giove! Scusate, dovevo farlo.

L’addestramento avviene nei circa 10000 data center sparsi in giro per il mondo, per mezzo delle GPU, o Graphics Processing Units, chip che compiono operazioni in parallelo, con una capacità computazionale ben più elevata delle classiche CPU. Il modello più diffuso è l’H100, costruito da Nvidia. Un singolo data center può ospitare fino a 10000 H100, il cui corretto funzionamento è direttamente correlato alla temperatura a cui operano, che va tenuta sotto controllo. I chip vengono dunque raffreddati con acqua potabile, spesso trattata chimicamente per diminuirne la conduttività elettrica ed evitarne il danneggiamento. L’acqua utilizzata per raffreddarli va poi, a sua volta, nuovamente raffreddata. È un’operazione complessa, i cui costi potrebbero essere efficientati (DeepSeek docet), ma che, in una moderna applicazione del paradosso di Jevons, non è detto determinino comunque una riduzione dell’ammontare di energia necessaria. In breve, l’aumentare dell’efficienza determina un costo di utilizzo minore, che a sua volta determina una domanda di utilizzo maggiore, che può determinare, a sua volta, un consumo energetico superiore a quello precedente all’efficientamento, che al mercato mio padre comprò.

nyt-datacenter
Quest’immagine del New York Times aiuta visualizzare il processo di raffreddamento.

Una volta costruito il modello viene messo, nella gran parte dei casi (o comunque in quelli che ci interessano ai fini di questo articolo), a disposizione del pubblico. Ecco che, finalmente, possiamo parlare del costo di una singola query. Come scrivevo, i fattori che contribuiscono al consumo energetico di una query sono diversi ed è, per questo motivo, difficile interpretare l’enigmatico “query media” scritto da Altman. Non è possibile scaricare i modelli closed-source (ChatGPT di OpenAI, Claude di Anthropic e Gemini di Google, che sono anche i più diffusi sul mercato) e quindi le analisi non possono che basarsi sui modelli open-source. I reporter del MIT Technology Review hanno usato i modelli della serie Llama di Meta. Il più piccolo di questi modelli è il Llama 3.1 8B, dove 8B sta per gli 8 miliardi di parametri (breve intermezzo: uno degli esempi che trovo più efficaci per capire in modo assai generale cosa siano i parametri è quello di pensare a delle manopole che vengono continuamente aggiustate per arrivare ad una configurazione ottimale, che permette poi al modello di compiere previsioni quanto più accurate possibili) di cui si compone (secondo fonti interne ad OpenAI, citate dal giornale statunitense Semafor, GPT-4 consterebbe di 1 trilione di parametri). Il modello più piccolo della serie Llama consuma 57 Joule per singola risposta, che secondo i reporter del MIT Technology Review, che citano un paper pubblicato da Microsoft nel 2024, vanno raddoppiati per includere i costi di addestramento e inferenza. Il costo energetico complessivo di una singola query del più piccolo modello della serie Llama sarebbe, quindi, circa 114 Joule, comparabili all’energia consumata da un laptop in circa 2 secondi. Quando tuttavia, la misurazione del consumo energetico è effettuata su un modello più grosso (con un numero di parametri superiore), come il Llama 3.1 405B, il consumo energetico di una singola query sale a 6706 Joule, o il consumo energetico di un laptop in circa 2 minuti. Ai fini dell’analisi citata sono state testate centinaia di query di complessità e lunghezza variabile, e dunque i dati riportati sono una media. Query più complesse e modelli più estesi, e quindi con più parametri, richiedono più energia.

Llama-3-619269409
Mark Zuckeberg durante un evento di presentazione di Llama 3. Ho una certa fascinazione per l’estetica cyberpunk della serie Llama. Punto in più per Zuck.

I 1224 Joule citati da Sam Altman non sembrano essere necessariamente poco credibili. È vero che i parametri di GPT-4 sono più del doppio di quelli di Llama 3.1 405B, ma una query potrebbe essere elaborata da un modello distillato da quello principale, ottimizzando i costi economici ed energetici. Dando credito ad Altman e ai numeri diffusi da OpenAI riguardo il miliardo di query giornaliere elaborate dai loro modelli, il consumo energetico giornaliero di ChatGPT si attesterebbe intorno ai 340 megawattora, equivalenti al consumo energetico giornaliero di 46000 famiglie italiane.

Così come il consumo energetico di una query dipende da molteplici fattori, lo stesso si può dire per le emissioni ad essa associate. Una query può essere elaborata da un data center in Francia o da uno in California e non esiste un modo per sapere con certezza dove verrà indirizzata, se non una ragionevole ipotesi di prossimità: se scrivo un prompt dall’Italia è più probabile che la mia query venga indirizzata ad un data center geograficamente vicino. E dunque l’intensità carbonica, intesa come quantità di anidride carbonica associata al consumo di una certa quantità di energia (generalmente misurata in grammi di CO2 per kilowattora), dipende fortemente dalla collocazione geografica del data center che elaborerà la query. Secondo uno studio dell’Harvard’s T.H. Chan School of Public Health l’intensità carbonica dell’elettricità usata dai data center è del 48% più alta rispetto alla media statunitense. Questo è dovuto al fatto che i data center sono collocati in stati in cui la griglia energetica è mediamente più inquinante. Lo stato statunitense in cui sono presenti più data center è la Virginia, in cui ne sono ospitati 585 dei 3822 attualmente presenti negli Stati Uniti (sembra che la ragione dietro la scelta della Virginia sia legata alla prossimità dello stato ai cavi sottomarini che collegano il continente americano all’Europa). Il mix energetico della Virginia è composto per più della metà da gas naturale, ed è tra i più inquinanti tra gli stati americani. In Europa, invece, lo stato con il maggior numero di data center è la Germania, che è anche uno degli stati con la più alta intensità carbonica, con 334 grammi di CO2 per kilowattora emessi nel 2024. In Francia, dove l’energia nucleare pesa per il 67% sul mix energetico, l’intensità carbonica è tra le più basse del continente (33 grammi di CO2 per kilowattora).

electricity-maps
Tutti i dati che ho citato riguardo l’intensità carbonica arrivano dal progetto di una startup danese, Electricity Maps, che trovo straordinario. Vi lascio qui il link.

Il numero dei data center non farà che aumentare, nel prossimo futuro, e con esso l’energia che consumeranno. Secondo un’analisi del Lawrence Berkeley National Laboratory citata dal New York Times i data center potrebbero arrivare a consumare tra i 166 e i 326 terawattora di energia entro il 2028. Il limite inferiore è circa l’ammontare di energia consumata annualmente da uno stato come la Norvegia, mentre quello superiore dalla Turchia. Sono numeri enormi. I grossi investimenti in ambito energetico da parte delle grandi società proprietarie di LLM derivano proprio dalla necessità di avere a disposizione grandi quantità di energia nell’immediato futuro. Microsoft ha firmato un contratto con la società proprietaria dell’impianto nucleare di Three Mile Island, in Pennsylvania; Amazon sta finanziando un progetto nello stato di Washington per la realizzazione di reattori nucleari modulari; Google ha firmato un accordo con la compagnia nucleare Kairos Power per costruire impianti capaci di generare fino a 500 megawattora di energia. La costruzione di questi impianti, tuttavia, non tiene il passo con la richiesta di energia da parte del settore dell’intelligenza artificiale, che sta esplodendo adesso.

Insomma, un intricato garbuglio di stime, previsioni, assunzioni, in cui l’incertezza regna sovrana, ma che non può non essere risolto. L’unico modo per farlo è richiedere maggiore trasparenza da parte delle aziende leader del settore, per evitare altre complesse opere di reverse-engineering, come quella dei reporter del MIT Technology Review.

Vi devo, infine, una risposta riguardo l’immagine di copertina di questo blog post. È stata generata tramite ChatGPT, che però, per come è costruito, indirizza la query a DALL-E, un cosiddetto diffusion model dedicato alla realizzazione di immagini. Potrebbe apparire controintuitivo, ma non è detto che un modello di diffusione necessiti di più energia di un modello testuale, anzi. La complessità e la lunghezza del prompt non impattano sull’energia consumata dalla singola query quanto, piuttosto, gli step richiesti per la realizzazione dell’immagine. Come vi dicevo, ho usato ChatGPT, un modello closed-source, e non possiamo far altro che affidarci nuovamente alle misurazioni tramite i modelli open-source. Generare un’immagine di qualità media  tramite un modello open-source, come Stable Diffusion 3 Medium (il modello open-source più utilizzato tra quelli dedicati alla generazione di immagini) richiede 2283 Joule. Un’immagine più complessa richiederebbe, invece, 4402 Joule. Ricordate l’hype legato alle immagini in stile Studio Ghibli realizzate tramite ChatGPT? In quei giorni di marzo, secondo OpenAI, il loro LLM ricevette circa 78 milioni di richieste di creazione di immagini al giorno. Se per ognuna di queste immagini il consumo energetico fosse stato di circa 4000 Joule (ma è assai più probabile che un modello complesso come ChatGPT necessiti di più energia di Stable Diffusion 3 Medium), l’energia necessaria alla sola realizzazione di immagini sarebbe stata di circa 87 megawatora. È l’energia che serve al vostro laptop per restare operativo, ininterrottamente, per 38 anni.

llama-chatgpt
Vi saluto con il lama di Meta nello stile dello Studio Ghibli, realizzato tramite ChatGPT. Scusa Sam.
Sin categoría
budget_forecasting_come_ottimizzare

Ottimizzare il budgeting e forecasting con modelli dinamici

I processi lenti e rigidi di budgeting e forecasting costano molto alle aziende. Oggi, in...

Blog
previsione_finanziaria

Previsione finanziaria: come migliorare l’accuratezza dei dati

Se vuoi evolvere la tua impresa, allora la previsione finanziaria è uno degli strumenti più...