Un nuovo documento di ricerca, pubblicato da OpenAI, afferma che è in arrivo un’intelligenza artificiale sovrumana e che l’azienda sta sviluppando strumenti per garantire che non si rivolti contro gli esseri umani. Il capo scienziato di OpenAI, Ilya Sutskever, è indicato come autore principale del documento, ma non del post sul blog che lo accompagna, e il suo ruolo nell’azienda rimane poco chiaro.

Capire come allineare i futuri sistemi di IA superumani in modo che siano sicuri non è mai stato così importante

Crediamo che la superintelligenza – un’intelligenza molto più intelligente di quella umana – possa essere sviluppata entro i prossimi dieci anni“, ha dichiarato OpenAI in un post sul blog. “Capire come allineare i futuri sistemi di IA superumani in modo che siano sicuri non è mai stato così importante, e ora è più facile che mai fare progressi empirici su questo problema“.
“Weak-to-strong generalization” è il primo lavoro del team “Superalignment di Ilya Sutskever e Jan Leike, creato a luglio per assicurarsi che i sistemi di IA molto più intelligenti degli umani seguano comunque le regole umane. La soluzione proposta? OpenAI deve progettare piccoli modelli di IA per addestrare i modelli di IA sovrumani.

Gli esseri umani non saranno sufficienti

Attualmente, OpenAI utilizza gli esseri umani per “allineare” ChatGPT dandogli un feedback positivo o negativo. In questo modo OpenAI si assicura che ChatGPT non dia alle persone istruzioni su come costruire il napalm a casa o altri risultati pericolosi. Man mano che ChatGPT diventa più intelligente, tuttavia, OpenAI riconosce che gli esseri umani non saranno sufficienti per addestrare questi modelli, quindi dobbiamo addestrare un’intelligenza artificiale meno complicata per farlo al posto nostro.

Generalizzazione da debole a forte

Lo studio ha riscontrato che l’addestramento di modelli AI di grandi dimensioni con modelli AI più piccoli, quello che viene definito “generalizzazione da debole a forte”, produce un livello di accuratezza più elevato in diverse circostanze, rispetto all’addestramento umano. Gran parte dello studio ha utilizzato GPT-2 per addestrare GPT-4. È importante notare che OpenAI afferma di non essere convinta che questa sia una “soluzione” al superallineamento, ma solo un quadro promettente per l’addestramento di un’IA superumana. “I modelli superumani in senso lato sarebbero straordinariamente potenti e, se utilizzati in modo improprio o non allineati con i valori umani, potrebbero potenzialmente causare danni catastrofici”, hanno affermato i ricercatori di OpenAI nello studio, sottolineando che non è stato chiaro come studiare empiricamente questo argomento.