Una ricerca condotta congiuntamente dall’Università di Stanford e dall’Università della California, Berkeley, ha portato alla luce una sfida fondamentale nello sviluppo dell’intelligenza artificiale. Secondo il rapporto, l’efficacia di ChatGPT sta peggiorando nel tempo. Nello specifico, l’IA ora farebbe fatica ad eseguire alcune operazioni matematiche di base. Eh sì che solamente pochi mesi fa non dava alcun problema.
Questo fenomeno è noto come “deriva” e si verifica quando i miglioramenti apportati a una parte complessa dei modelli di intelligenza artificiale finiscono per influenzare negativamente altre parti.
I ricercatori hanno testato le versioni 3.5 e 4.0 di ChatGPT, scoprendo che il tasso di successo della versione premium GPT-4 nella determinazione dei numeri primi è sceso dall’84% di marzo al 51% registrato a giugno. Questo dimostra chiaramente una diminuzione delle prestazioni.
I ricercatori hanno preso in considerazione otto diverse aree di competenza logico-matematica. A quanto pare, GPT-4 è peggiorato in almeno sei di esse.
Questa scoperta solleva questioni importanti riguardo al continuo sviluppo e perfezionamento di modelli estremamente complessi. Sebbene i modelli di intelligenza artificiale possano migliorare in alcune aree, sembra che ciò possa avvenire a spese delle loro prestazioni in altre attività. Non è un problema di secondaria importanza: significa che il perfezionamento delle IA richiederà, di volta in volta, di monitorare con attenzione eventuali passi indietro indesiderati.