L’intelligenza artificiale, nonostante i progressi straordinari in vari settori, mostra significative lacune nella risoluzione di problemi matematici avanzati. Secondo un rapporto del gruppo di ricerca Epoch AI, i principali sistemi di AI risolvono meno del 2% dei problemi posti dal nuovo benchmark FrontierMath. Questo test raccoglie centinaia di quesiti di livello accademico, sviluppati con il contributo di oltre 60 matematici di alto profilo, tra cui i vincitori della Medaglia Fields Terence Tao e Timothy Gowers.
Mentre modelli come GPT-4 e Gemini 1.5 Pro raggiungono il 90% di accuratezza nei test matematici tradizionali, si trovano in grande difficoltà con i problemi di FrontierMath, che coprono discipline complesse come la teoria dei numeri computazionale e la geometria algebrica.
Problemi progettati per sfidare anche gli esperti
Terence Tao ha descritto i problemi di FrontierMath come “estremamente impegnativi”, richiedendo una combinazione di competenze avanzate, strumenti matematici e supporto tecnologico per essere risolti. Le soluzioni sono intenzionalmente rese “a prova di tentativi casuali”, con risposte numeriche enormi o oggetti matematici altamente complessi. Questo impedisce approcci intuitivi o superficiali, enfatizzando la necessità di un ragionamento profondo e rigoroso.
Limiti e potenzialità future
Sebbene questi risultati evidenzino i limiti attuali dell’AI nella matematica avanzata, rappresentano anche un’opportunità per migliorare le capacità di ragionamento algoritmico. FrontierMath e altri benchmark concettualmente simili potrebbero presto diventare un prezioso banco di prova per sviluppare sistemi più avanzati, con risvolti a cascata estremamente positivi per il mondo della ricerca scientifica.