Insights / Blog

Le conseguenze – effettive e mancate – del terremoto DeepSeek

DeepSeek

Necessario disclaimer: non ho resistito alla tentazione di porre al chatbot di DeepSeek domande la cui risposta sapevo sarebbe stata censurata.

In effetti, nemmeno si sforza.

Avevo letto in un articolo del Wall Street Journal che le aziende che producono modelli di AI generativa devono dimostrare al governo cinese il rifiuto da parte dei propri chatbot di rispondere ad un numero di domande che varia tra le 5000 e le 10000, la metà delle quali riguarda le politiche promosse dal Partito comunista cinese. La notizia, dunque, che il chatbot di un’azienda cinese si rifiutasse di rispondere a domande riguardo gli eventi del 1989 in Piazza Tienanmen o al terzo mandato cercato e trovato dal Presidente cinese Xi Jinping non avrebbe dovuto destare troppo sconcerto. 

La censura che notoriamente il governo cinese impone alle proprie aziende e ai propri cittadini è una notizia laterale rispetto al terremoto che ha generato DeepSeek in altri ambiti e settori. 

Il quasi-trilione di dollari perso in borsa dalle aziende statunitensi, trainate dalla storica – letteralmente – perdita di 589 miliardi di capitalizzazione da parte di NVIDIA è uno dei grossi eventi determinati dall’effetto domino scatenato da DeepSeek. La startup cinese guidata da Liang Wenfeng ha dichiarato di aver effettuato l’ultimo run di addestramento al costo di soli 5.6 milioni di dollari (per confronto: Meta ha speso una cifra compresa tra i 100 e i 600 milioni di dollari per allenare il proprio modello open-source Llama 3.1). Lo scetticismo degli investitori nei confronti delle aziende statunitensi, il cui business fino ad oggi si è fondato sul richiedere quanti più soldi possibile per acquistare quanti più supercalcolatori per allenare LLM sempre più potenti e veloci, è parso parzialmente giustificato. Ma l’evento che ha scatenato il crollo dei mercati americani è stato davvero il rilascio del LLM di DeepSeek? Il modello V3 di DeepSeek è stato rilasciato alla fine di dicembre, mentre R1 il 20 gennaio. Il paper che conteneva il dettaglio del costo dell’ultimo addestramento è stato pubblicato il 26 dicembre. I mercati non hanno impiegato un mese a metabolizzare la notizia. In realtà, una consistente parte della responsabilità del crollo in borsa di NVIDIA era dovuta alla viralità raggiunta dal post di un blogger statunitense che in circa 12000 parole “aveva riassunto” i motivi per i quali shortare l’azienda produttrice di processori fosse una saggia scelta, citando estesamente proprio i successi di DeepSeek e imputando alle aziende statunitensi un’inefficienza dovuta alla mancata ricerca dell’ottimizzazione dei costi. Insomma, il business di NVIDIA non parrebbe essere in pericolo e l’azienda ha già quasi riassorbito completamente il crollo di fine gennaio.

Questo grafico del Financial Times fa comunque piuttosto impressione.

L’altra grossa notizia ha riguardato le conseguenze geopolitiche. Sui giornali, nei network, sui social, ovunque negli Stati Uniti si è discusso di quanto il Chip Ban imposto dall’amministrazione Biden non abbia fatto altro che incentivare la ricerca, da parte delle aziende cinesi, di metodi innovativi ed efficienti per allenare i propri modelli. Per la serie: la necessità aguzza l’ingegno. C’è ben più di un fondo di verità in queste discussioni, ma se il Large Language Model di DeepSeek ha performance tanto straordinarie nonostante un costo computazionale tanto ridotto, non ci si può non chiedere cosa la startup cinese sarebbe stata capace di tirar fuori con i mezzi finora ad esclusivo appanaggio delle aziende statunitensi. Nella sua newsletter Stratechery, Ben Thompson, uno dei più informati analisti del settore tech, ha scritto approfonditamente del tema. Secondo Thompson, in sostanza, i numeri forniti da DeepSeek tornano, per merito soprattutto dell’utilizzo del metodo mixture of experts, che permette l’attivazione di parti del LLM, non rendendone necessaria l’attivazione nella sua interezza. Immaginiamo il LLM come un grosso cervello, il mixture of experts ottimizza l’attivazione dei neuroni, interrogando solo alcune aree (o esperti, per l’appunto), e permettendo il radicale calo dei costi di addestramento grazie alla possibilità di utilizzare processori meno potenti. Il training set di V3 (il base model da cui deriva R1, il modello responsabile del generale panico) di DeepSeek, rilasciato a dicembre, consiste di 14.8 trilioni di token, che secondo Thompson renderebbero sufficienti le 2.8 milioni di ore di allenamento di V3 tramite i chip H800 di NVIDIA utilizzati dalla startup cinese (il ban riguarda e riguardava gli H100). Avessero usato gli H100?

DeepSeek non rappresenta, dunque, un grosso pericolo per OpenAI, Google o Meta, ma è certamente una sveglia per l’intero settore e un’ottima notizia per i consumatori. Arriviamo, quindi, al motivo per il quale il rilascio di R1 può davvero considerarsi una notizia così rilevante. V3 e R1 sono modelli open-source, con l’eccezione del data set di addestramento che la società non ha rilasciato. I parametri sono pubblici e per un LLM con performance tanto elevate è, in effetti, una novità. In HuggingFace stanno tentando di replicare interamente R1: dovessero riuscirci avremmo il primissimo modello con performance competitive con i principali LLM a pagamento, interamente open-source, dal quale chiunque volesse potrebbe partire per addestrare il proprio modello, applicando le proprie caratterizzazioni.

Una perfetta sintesi del momento nel titolone di The Verge di qualche giorno fa.

Nel paper in cui è stato presentato R1 è descritta in maniera trasparente la fase di reinforcement learning. Qui occorre fermarsi per qualche momento. Il reinforcement learning è una delle tecniche di addestramento di un modello di machine learning, al quale viene fornita una funzione di ricompensa. Alcuni degli LLM attualmente in circolazione sono stati allenati con RLHF, reinforcement learning with human feedback. Il RL è una branca del machine learning che affonda le sue radici più indietro nel tempo, agli inizi del Novecento, con gli studi di Ivan Pavlov, un neurologo sovietico, riguardo l’apprendimento di cani, topi e altri animali basati su ricompense e punizioni. Allo stesso modo, nel RL si costruisce una funzione che ottiene risultati positivi in caso di buon apprendimento e negativi al contrario. Il modello R1 di DeepSeek rappresenta il primissimo caso nel quale la fase di feedback è demandata alla macchina. 

Quando si parla di macchine pensanti, l’approccio tramite RL induce a pensare che i punti di svolta reali (quelli che ci avvicinano all’intelligenza artificiale generale) vengano raggiunti quando viene eliminata la supervisione della fase di apprendimento: lasciando che la macchina sia libera di esplorare lo spazio dei possibili casi. Un po’ come i primi passi mossi da un bambino, insomma. 

Sul tema, uno degli esempi più chiari è quello che riguarda AlphaGo, il primo programma capace di battere un giocatore professionista al gioco del Go. Per chi non avesse particolare contezza di ciò di cui sto scrivendo, consiglio la visione del documentario prodotto da Google, la cui divisione DeepMind è artefice del progetto (piccolo spoiler: se alla mossa 78 del campionissimo sudcoreano Lee Sedol non vi scende una lacrimuccia non avete un cuore. O fate il tifo per le macchine). Ciò che rese, e rende ancora, straordinario AlphaGo rispetto ai modelli fino a quel momento addestrati per giocare a Go era proprio la scelta di addestrarlo con il metodo RL. In DeepMind avevano osservato che addestrando il programma con partite già giocate dagli esseri umani, il limite superiore sarebbe stata proprio la bravura umana al gioco del Go, specificamente quella del, per l’appunto, 18 volte campione del mondo Lee Sedol. Con il RL AlphaGo (la versione AlphaGo Lee, in particolare) ha impiegato poco più di 40 ore per superare il livello di abilità (l’Elo rating) di Lee Sedol.

Un grafico estratto dal paper in cui DeepMind ha presentato AlphaGo.

Per chi lavora nel settore o anche per chi ne è solamente incuriosito o ne segue con attenzione gli sviluppi la lettura del documento in cui DeepSeek presenta la fase di reinforcement learning di R1 è pressoché obbligatoria. Ciò che ho trovato straordinaria è stata la presentazione dei cosiddetti Aha moments, nei quali il LLM di DeepSeek ritorna sui propri passi rivalutando il proprio approccio iniziale ad un problema complesso. La startup cinese ha messo nero su bianco un concetto piuttosto intuitivo, ma certamente non banale. L’accuratezza delle risposte dei modelli addestrati con RL è direttamente proporzionale al tempo medio impiegato per rispondere.

Se avete interagito con il chatbot di DeepSeek, questo grafico estratto dal paper di presentazione di R1 vi tornerà familiare.

L’unico reasoning model in circolazione prima di R1 è stato o1 di OpenAI (ora siamo ad o3), ma nel caso dell’azienda di Sam Altman il ragionamento condotto dal modello è un segreto aziendale. Attualmente, sul Google AI Studio è possibile testare il reasoning model sperimentale di Google, Gemini 2.0 Flash Thinking Experimental, che sulla scia di DeepSeek ha reso possibile la lettura della fase di ragionamento. 

Insomma, il settore tech non può che beneficiare da questa trasparenza, e il fatto che sia stata un’azienda cinese a fare da apripista è una lezione, ma anche e soprattutto un’occasione per le grandi aziende statunitensi.

Blog
arc-example-task

AI Benchmark: come misurare i progressi degli LLM se conoscono le regole del gioco?

Sono più intelligente di un LLM. È una frase introduttiva pericolosa e parecchio autoreferenziale, ma...

Blog
finance analytics

Finance analytics: il caso che fa scuola

Il finance analytics sta diventando sempre di più una risorsa imprescindibile per le organizzazioni e...