Sono più intelligente di un LLM.
È una frase introduttiva pericolosa e parecchio autoreferenziale, ma per oggi ho scelto di fidarmi dell’esito del puzzle giornaliero di ARC-AGI.

Devo fornire del contesto perché possiate fidarvi di ciò che ho scritto, ma prima di farlo il mio consiglio è di testarlo voi stessi, dopodiché tornate qui.
Sono sicuro non l’abbiate trovato troppo complesso e quasi certamente non vi ha richiesto più di 5 o 10 minuti venirne a capo. Il costo di risoluzione, oltretutto, è stato praticamente nullo. Non può dire lo stesso OpenAI, che ha speso oltre 1.5 milioni di dollari per raggiungere la soglia dell’87.5 per cento di successo in una versione addirittura precedente e meno complessa di quella testata da voi. Ciò che sto scrivendo non è, in alcun modo, un tentativo di sminuire il traguardo raggiunto da OpenAI, quanto di sottolineare ciò che François Chollet, ideatore del benchmark ARC-AGI, sostiene dal 2019: la gran parte dei benchmark attualmente in circolazione, e sui quali sono valutati i Large Language Model, non rappresentano un indicatore sufficiente dell’avvicinarsi dell’AGI, l’intelligenza artificiale generale.

Un benchmark è un test standardizzato per i sistemi di intelligenza artificiale (ma non solo) che permette di compararne le performance attraverso una serie di compiti, che possono riguardare l’ambito matematico, la programmazione, la lettura o l’interpretazione di testi. ARC-AGI è solo uno di quelli in circolazione, sebbene rientri tra i più popolari.
Secondo la giornalista Kelsey Piper, che scrive per la sezione Future Perfect di Vox, il 2024 è stato l’anno in cui la gran parte dei benchmark in circolazione è arrivata a saturazione: è arrivata, dunque, al momento in cui le performance degli LLM su quel dato benchmark sono state così alte da essere tra loro indistinguibili. I sistemi di intelligenza artificiale offrono ormai performance superiori a quelle umane in benchmark fino allo scorso anno particolarmente popolari, come GPQA, che testa la conoscenza in ambito fisico, biologico e chimico, e MMLU, che misura, invece, la capacità di comprensione del testo.
Viene da sé che la risposta alla saturazione dei principali benchmark è stata la realizzazione di ulteriori benchmark, sempre più complessi. Non parlo solo di ARC-AGI 2, il successore di ARC-AGI. Il New York Times ha scritto di Humanity’s Last Exam, ideato dal ricercatore Dan Hendrycks su spunto di Elon Musk, che consta di circa 3000 domande a risposta multipla riguardanti aree che spaziano dalla filosofia analitica all’ingegneria missilistica (un esempio: una delle domande del dataset di Humanity’s Last Exam è la seguente: “Nella mitologia greca, chi era il bisnonno materno di Giasone?”. Provate a porre la stessa domanda a più chatbot: Gemini, DeepSeek, ChatGPT, Claude, e provate a porre anche la stessa domanda più volte).

Quanto, tuttavia, i benchmark sono davvero indicatori del progresso verso l’AGI? Nella newsletter The Batch, di DeepLearning.AI, è stata presentata una tesi ripresa anche dal giornalista Alex Reisner, di The Atlantic: i benchmark sono inutili. I Large Language Models, scrivono gli autori di The Batch, sono allenati su data set ottenuti attraverso processi di data scraping dal web e, dunque, volontariamente o meno, conoscono le risposte alle domande su cui sono comunemente allenati (un utile reminder dell’importanza della separazione dei dati di training, di test e di validazione di un modello). Uno degli esempi citati nell’articolo di The Atlantic riguarda proprio MMLU, uno dei benchmark citati prima: ChatGPT, il chatbot di OpenAI, era in grado di riprodurre le risposte sbagliate, tra quelle proposte dal benchmark, nel 57% dei casi. Una delle versioni di ChatGPT, in sostanza, è stata allenata sul dataset delle domande a risposta multipla proposte da MMLU. Il rischio è, ovviamente, di valutare in maniera incorretta i progressi dei Large Language Model.
Una delle possibili soluzioni è stata offerta dagli sviluppatori di LiveBench, che hanno proposto un benchmark il cui dataset viene costantemente aggiornato. Tuttavia, se da un lato l’aggiornamento del dataset dovrebbe prevenire l’addestramento degli LLM sulle domande e le risposte del benchmark, dall’altro la soluzione contraddice il concetto stesso di benchmark, ovvero quello di test standardizzato.
Nel mentre, il mio consiglio non richiesto è quello di valutare voi stessi i Large Language Model su Chatbot Arena.

Nel mentre io tenterò, giorno per giorno, di farmi dire da ARC-AGI quanto sia più intelligente dei sistemi di intelligenza artificiale. Finché sarà possibile.