GPT-4o ottiene 2,7%. GPT-5 arriva al 25%. Gemini 3 Pro raggiunge il 44,7%. No, non sono percentuali di sconto su ChatGPT Plus - sono i punteggi dei modelli AI più avanzati del mondo su Humanity's Last Exam, il test che sta ridefinendo cosa significa "intelligenza artificiale".
E il fatto che anche i migliori modelli stiano arrancando? È esattamente quello che dovrebbe succedere.
Il Problema dei Benchmark Troppo Facili
Per anni, abbiamo misurato il progresso dell'AI con benchmark standardizzati. Il modello risponde a domande su matematica, biologia, medicina, programmazione. Più domande giuste, più "intelligente" è il modello.
Il problema? I modelli AI hanno iniziato a ottenere oltre il 90% su questi test.
Quando tutti superano l'esame con il massimo dei voti, l'esame non serve più a niente. Non riesci più a distinguere un vero miglioramento da un semplice overfitting sui dataset pubblici. È come se tutti gli studenti avessero accesso alle risposte dell'anno scorso.
E qui entra in gioco Humanity's Last Exam.
Cos'è Humanity's Last Exam?
Humanity's Last Exam (HLE) è un benchmark AI creato da un consorzio internazionale di esperti - oltre 1.000 ricercatori da 50 paesi - in collaborazione con il Center for AI Safety e Scale AI.
Le specifiche tecniche:
- 2.500 domande pubbliche (altre migliaia tenute private)
- Livello graduate - expertise universitaria avanzata
- Domande multi-disciplinari: matematica (41%), fisica (9%), biologia/medicina, scienze umane, linguistica
- Due tipi di risposta: risposta esatta completa o multiple-choice
- Nessuna risposta disponibile online (domande originali create da esperti)
Alcuni esempi reali dal test:
- "Come traduci un'iscrizione romana trovata su una lapide?"
- "Quante paia di tendini sono supportate da un osso negli uccelli colibrì?"
- "Basandoti sulla ricerca più recente sulla pronuncia tiberiana, identifica tutte le sillabe che terminano con un suono consonantico da questo testo ebraico"
Non sono domande che risolvi con una ricerca su Google.
Vuoi costruire sistemi AI più intelligenti?
Ti aiuto a integrare e ottimizzare modelli AI nella tua azienda, scegliendo le soluzioni giuste per il tuo caso d'uso.
Come Sono Andate le AI?
Quando il test è stato rilasciato all'inizio del 2025, i risultati sono stati... umilianti.
Score iniziali (inizio 2025):
- GPT-4o: 2,7%
- La maggior parte dei modelli: cifre singole
Score attuali (marzo 2026):
- Gemini 3.1 Pro Preview: 44,7%
- GPT-5.4: 41,6%
- GPT-5.3 Codex: 39,9%
- GPT-5: ~25%
Anche il modello migliore al mondo risponde correttamente a meno della metà delle domande. Per un confronto, un esperto umano nel suo campo dovrebbe avvicinarsi al 90%+ nelle domande della sua specializzazione.
Come Funziona il Processo di Selezione
Non basta essere una domanda difficile per entrare in HLE. Il processo di curation è rigoroso:
- Submission da esperti: Migliaia di ricercatori inviano domande graduate-level nei loro campi
- Test contro AI: Le domande vengono testate su più modelli AI. Solo quelle che "stumpano" i modelli passano al round successivo
- Revisione da esperti: Altri esperti valutano l'utilità e l'originalità delle domande secondo linee guida rigorose
- Split pubblico/privato: 2.500 domande rilasciate pubblicamente, altre migliaia tenute private per prevenire overfitting
Circa 70.000 submission iniziali sono state ridotte a poche migliaia dopo questo processo.
Perché "Last Exam" è un Nome Controverso
Il nome stesso del benchmark ha generato discussioni. "Humanity's Last Exam" suona apocalittico, come se dopo questo test non avremo più bisogno di testare l'AI perché avrà raggiunto il livello umano.
Le critiche principali:
1. Expertise ≠ Intelligenza
Come notano i ricercatori del MIT Katherine Collins e Joshua Tenenbaum, HLE misura performance su problemi accademici, non "intelligenza" vera e propria. L'expertise reale include anche:
- Valutare se una domanda ha senso
- Riconoscere quando ci sono più risposte possibili
- Sapere quanto sei sicuro della tua risposta
- Fare domande nuove, non solo rispondere a quelle esistenti
2. Formato Limitato
Le domande richiedono risposte brevi o multiple-choice. Ma molti problemi complessi richiedono risposte articolate, ragionamenti interdisciplinari, paper scientifici. Queste forme di expertise non sono catturate da HLE.
3. Gaming del Sistema
Un miglioramento nello score HLE può significare due cose:
- Il modello è diventato davvero più capace
- Il modello ha fatto training extra sul dataset pubblico (come studiare le domande dell'anno scorso)
Non è sempre chiaro quale delle due.
Scopri i miei progetti AI
Dai un occhio a come uso AI, automazione e agenti nel mio workflow quotidiano.
La Corsa agli Armamenti dei Benchmark
HLE è solo l'ultimo capitolo in una storia più lunga: la corsa continua tra AI capabilities e AI benchmarks.
Il pattern si ripete:
- Viene creato un nuovo benchmark "difficile"
- I modelli AI migliorano rapidamente
- Dopo 1-2 anni, ottengono punteggi vicini al 100%
- Il benchmark diventa obsoleto
- Serve un nuovo benchmark più difficile
È successo con:
- ImageNet (riconoscimento immagini)
- GLUE e SuperGLUE (comprensione del linguaggio naturale)
- MMLU (massive multitask language understanding)
E ora sta succedendo con HLE. GPT-4o è passato da 2,7% a oltre 40% in poco più di un anno.
Cosa Significa per il Futuro dell'AI
HLE ci dice alcune cose importanti:
1. Siamo ancora lontani dall'AGI
Se anche i modelli migliori rispondono correttamente a meno della metà delle domande graduate-level, siamo ancora molto lontani da un'intelligenza artificiale generale (AGI) che compete con esperti umani su tutta la linea.
2. Il progresso è reale ma ineguale
I modelli stanno migliorando rapidamente. Ma questo progresso è diseguale - eccellono in alcuni domini (matematica, programmazione) mentre arrancano in altri (linguistica antica, biologia specialistica).
3. Serve un nuovo paradigma di valutazione
Come nota Subbarao Kambhampati (ex presidente dell'Association for the Advancement of Artificial Intelligence): "L'umanità non è contenuta in nessun test statico, ma nella nostra capacità di evolvere continuamente sia nel fare domande che nel rispondere a domande che non avremmo mai immaginato - generazione dopo generazione."
OpenAI e altri stanno esplorando nuovi modi di valutare l'AI - creatività scientifica, pensiero collaborativo con umani, scenari del mondo reale invece di test accademici.
Il Benchmark che Vuole Rendersi Obsoleto
La cosa più interessante di HLE? Il team che l'ha creato spera che diventi obsoleto.
Non perché l'AI lo supererà completamente (anche se succederà), ma perché il suo scopo è forzare lo sviluppo di paradigmi innovativi per la valutazione dell'AI.
Come scrivono Collins e Tenenbaum: "Il progetto idealmente renderà se stesso obsoleto forzando lo sviluppo di paradigmi innovativi per la valutazione dell'AI."
Quando Gemini o GPT arriveranno al 90%+ su HLE, avremo bisogno di qualcosa di ancora più difficile. Non per testare l'AI su domande accademiche, ma per misurare la sua capacità di collaborare con umani, generare nuove idee, navigare l'ambiguità del mondo reale.
Humanity's Last Exam non sarà veramente l'ultimo esame dell'umanità. Ma per ora, è il migliore che abbiamo.
Risorse:
Vuoi rimanere aggiornato su AI, benchmark e progresso dei modelli? Seguimi qui sul blog o contattami per consulenze su come scegliere e integrare i modelli AI giusti per il tuo business.
