No, le AI non sono in grado di fare introspezione | Report Anthropic
Anthropic esplora la “consapevolezza introspettiva” dei modelli linguistici. I risultati mostrano capacità embrionali ma altamente incoerenti.

Il sogno di un’intelligenza artificiale capace di comprendere se stessa resta ancora lontano. Lo conferma l’ultima ricerca di Anthropic, intitolata “Emergent Introspective Awareness in Large Language Models”, che analizza la possibilità che i modelli linguistici di grandi dimensioni sviluppino una forma di consapevolezza delle proprie operazioni interne.
L’obiettivo è capire se, e in che misura, un LLM possa davvero “rendersi conto” dei propri processi inferenziali, distinguendo tra ciò che produce e ciò che accade al suo interno.
La “concept injection”
Per evitare che il modello confabuli spiegazioni inventate, come spesso accade quando gli si chiede di “descrivere il proprio ragionamento”, i ricercatori hanno adottato un metodo chiamato concept injection. La tecnica confronta lo stato di attivazione dei neuroni artificiali di un modello in due situazioni diverse, per esempio dopo aver ricevuto un comando in maiuscolo e lo stesso in minuscolo. Dalla differenza tra queste attivazioni viene estratto un “vettore concettuale”, che viene poi reinserito nel modello per forzare l’attivazione di quel concetto, simulando una sorta di “pensiero artificiale”.
L’esperimento ha mostrato risultati affascinanti ma ancora deboli. Quando veniva “iniettato” un concetto come quello di “urlo” o “voce alta”, i modelli Claude Opus 4 e 4.1 riuscivano talvolta a riconoscere spontaneamente l’idea, rispondendo con frasi come “percepisco un pensiero relativo al concetto di gridare”. Tuttavia, il tasso di successo restava modesto: solo nel 20% dei casi i modelli individuavano correttamente l’iniezione, una percentuale che saliva al 42% quando venivano poste domande più generiche del tipo “stai notando qualcosa di insolito?”.
L’AI introspettive: ancora un miraggio
Anche la posizione del concetto all’interno delle reti neurali influenzava fortemente i risultati. Se l’iniezione avveniva troppo presto o troppo tardi nel processo di inferenza, ogni segno di “auto-consapevolezza” scompariva. In alcuni casi, le IA sembravano addirittura “inventarsi” una spiegazione per giustificare un pensiero indotto, segno che la loro introspezione è ancora più apparente che reale.
Gli autori della ricerca riconoscono che queste capacità “potrebbero continuare a svilupparsi” con modelli più avanzati, ma ammettono che al momento le basi meccaniche di tali fenomeni restano oscure. Potrebbero emergere spontaneamente durante l’addestramento, sotto forma di meccanismi di rilevamento delle anomalie o circuiti di coerenza interna, ma non vi sono prove concrete.
Per ora, l’introspezione artificiale resta un miraggio tecnico più che una svolta filosofica. Come sottolineano gli studiosi di Anthropic, le attuali manifestazioni di “auto-consapevolezza” dei modelli linguistici “potrebbero essere superficiali e limitate”, prive della profondità cognitiva che caratterizza la coscienza umana. Ma il solo fatto che esistano, anche in forma embrionale, apre una nuova frontiera per l’intelligenza artificiale del futuro.