Humanity's Last Exam (HLE) è stato progettato per essere il benchmark che l'IA non avrebbe mai potuto risolvere. A differenza di MMLU o GSM8K, che i modelli ora superano regolarmente con punteggi del 90%+, HLE è stato costruito da esperti per mettere in difficoltà persino i migliori dottorandi (PhD). Tuttavia, a Maggio 2026, stiamo assistendo a un cambiamento radicale nella classifica che mette in discussione le nostre ipotesi sul ragionamento artificiale.
Humanity’s Last Exam 2026: Risultati di Maggio
Ho monitorato l'evoluzione di Humanity's Last Exam 2026 fin dal suo rilascio e i progressi in pochi mesi sono sbalorditivi. Nella mia precedente analisi sui limiti di HLE, la maggior parte dei modelli faticava a superare la soglia del 20%. Oggi siamo vicini al 50%. Ma c'è un problema: il benchmark stesso è sotto accusa per la sua accuratezza.
La classifica attuale di Humanity's Last Exam 2026 ha un nuovo re. Gemini 3.1 Pro Preview detiene il primo posto con un punteggio del 44,7%. È seguito da vicino da GPT-5.5 (xhigh) al 44,3% e Claude Mythos Preview al 43,8%.
Questo raggruppamento di punteggi intorno al 44% suggerisce che abbiamo raggiunto un nuovo plateau nel ragionamento di frontiera. Questi modelli non stanno solo tirando a indovinare; stanno risolvendo problemi di matematica e fisica di livello universitario avanzato che sono stati specificamente progettati per essere "a prova di Google". Tuttavia, la corsa per il punteggio più alto in Humanity's Last Exam 2026 è sempre più oscurata da una domanda fondamentale: chi valuta i valutatori?
Hai bisogno di aiuto con la strategia AI?
Se stai cercando di capire quale modello di frontiera è giusto per il tuo caso d'uso aziendale, parliamone.
Perché Humanity's Last Exam 2026 è Diverso dai Vecchi Benchmark
I benchmark standard come MMLU sono ormai finiti nei set di addestramento dei moderni LLM, portando a punteggi gonfiati. Humanity's Last Exam 2026 cerca di risolvere questo problema con tre caratteristiche distintive:
- Competenza a Livello PhD: Il 41% dell'esame si concentra sulla matematica avanzata. Fisica, biologia e chimica costituiscono la maggior parte del resto.
- Segretezza Crowdsourced: Le domande sono state raccolte da esperti di tutto il mondo. Sono state filtrate dall'IA per garantire che non fossero già presenti nei dati di addestramento.
- Baseline Bassa: Mentre gli umani hanno una media del 60-70%, i primi modelli AI ottenevano punteggi vicini al caso (2-5%).
Il fatto che siamo passati dal 5% al 44,7% in un anno è la prova del ritmo incredibile dell'"Era degli Agenti". Modelli come DeepSeek V4 Pro utilizzano ora loop di ragionamento interno. Questo è esattamente ciò che Humanity's Last Exam 2026 premia.
La Controversia Scientifiche in Humanity's Last Exam 2026
La storia più importante di Maggio 2026 non sono i punteggi in sé. È un rapporto di FutureHouse. I loro ricercatori hanno esaminato le sezioni di chimica e biologia di HLE. Hanno scoperto che circa il 30% delle risposte "corrette" erano in realtà errate.
Questo è un problema enorme. Se lo standard per misurare il "ragionamento a livello AGI" contiene errori, la classifica diventa una misura di quale modello è più bravo a copiare gli errori del benchmark. Per un Chief Technology Officer, questo è un promemoria critico: i benchmark come Humanity's Last Exam 2026 sono un segnale, non una garanzia.
Confronto Frontier: Gemini 3.1 vs GPT-5.5 vs Claude Mythos
| Modello | Punteggio HLE (Maggio 2026) | Forza Principale |
|---|---|---|
| Gemini 3.1 Pro Preview | 44,7% | Ragionamento multimodale e Matematica |
| GPT-5.5 (xhigh) | 44,3% | Rispetto delle istruzioni e Logica |
| Claude Mythos Preview | 43,8% | Sfumature e Problem Solving creativo |
Mentre Gemini guida sui numeri grezzi di Humanity's Last Exam 2026, Claude Mythos è considerato più "onesto." È più propenso ad ammettere quando una domanda è mal formulata. GPT-5.5 ha una tendenza maggiore a "forzare" un percorso di ragionamento per raggiungere la risposta attesa dal benchmark.
Vedi i miei progetti AI
Testo questi modelli di frontiera ogni giorno nei flussi di lavoro OpenClaw reali. Guarda cosa sto costruendo.
Analisi dei Dati di Humanity's Last Exam 2026
I dati di Maggio 2026 per Humanity's Last Exam 2026 confermano che la barriera del 50% è vicina. Ma cosa ci dicono questi numeri sulla vera intelligenza? Se un modello eccelle in HLE ma fallisce in compiti logici semplici, stiamo assistendo a una forma di specializzazione dei benchmark piuttosto che a una AGI. In base ai miei test quotidiani, Humanity's Last Exam 2026 resta comunque uno dei test più validi per misurare la logica pura.
Cosa Significa Questo per le Aziende?
Per la maggior parte delle PMI, il punteggio di un modello AI in un esame di fisica post-laurea è irrilevante. Tuttavia, Humanity's Last Exam 2026 funge da "stress test" per le capacità di ragionamento che contano davvero:
- Risoluzione di Problemi Complessi: Se un modello può risolvere un problema di matematica da PhD, probabilmente può risolvere i bug di una catena logistica complessa.
- Analisi delle Policy: La capacità di gestire 256k token di contesto mentre si ragiona è una traduzione diretta delle competenze di Humanity's Last Exam 2026.
- Affidabilità: La controversia sull'errore del 30% ci insegna a costruire "Loop di Verifica." Non fidarti mai dell'output di un singolo modello. Usa sempre un sistema multi-agente come OpenClaw per incrociare i risultati.
FAQ su Humanity's Last Exam 2026
I benchmark AI cambiano velocemente. Ecco le risposte alle domande più frequenti sull'esame HLE.
Cos'è Humanity's Last Exam 2026?
È un benchmark avanzato per l'IA, sviluppato per testare capacità di ragionamento di livello dottorato (PhD) in materie come matematica, fisica e biologia.
Chi ha vinto Humanity's Last Exam 2026 a Maggio?
Al momento, Gemini 3.1 Pro Preview guida la classifica con il 44,7%, superando di poco i modelli di OpenAI e Anthropic.
Perché Humanity's Last Exam 2026 è controverso?
Una ricerca di FutureHouse ha rivelato che circa il 30% delle risposte considerate corrette nelle sezioni di chimica e biologia potrebbero contenere errori scientifici.
Come si confronta Humanity's Last Exam 2026 con il vecchio MMLU?
MMLU è ormai considerato "facile." Humanity's Last Exam 2026 usa domande segrete e crowdsourced per evitare questo problema.
Posso usare Humanity's Last Exam 2026 per testare i miei agenti?
Sì, il dataset è disponibile per i ricercatori. È un ottimo modo per valutare la logica degli agenti costruiti con OpenClaw.
Mentre ci avviciniamo alla seconda metà del 2026, aspettati che il benchmark HLE venga aggiornato. La corsa per il ragionamento AGI è lungi dall'essere finita. Ma il divario tra uomo e macchina si sta chiudendo più velocemente di quanto previsto.
Scritto da Matteo Giardino, CTO e founder. Costruisco soluzioni basate sull'AI e agenti per il mercato italiano e globale. I miei progetti.
