Forse non esiste una soluzione ai problemi di sicurezza dei browser AI
OpenAI ammette che gli attacchi di prompt injection su ChatGPT Atlas sono una minaccia permanente. L'azienda si prepara ad un inseguimento continuo e infinito con gli hacker.

L’era degli agenti IA capaci di navigare sul web e gestire le nostre email è ufficialmente iniziata. Peccato però che questa nuova fase introduca anche nuove sfide impegnative. E forse irrisolvibili. OpenAI ha recentemente ammesso che il problema degli attacchi prompt injection rappresentano una sfida di sicurezza a lungo termine che, con buone probabilità, non verrà mai “risolta” definitivamente.
Con questo termine, ci riferiamo agli attacchi che manipolano l’IA tramite istruzioni malevole nascoste in pagine web o messaggi. Come abbiamo visto, il problema è diventato rilevante praticamente fin da subito: le prime vulnerabilità sono state scoperte pochissimi giorni dopo il debutto di Atlas, il primo browser di OpenAI.
Una rincorsa perenne con gli hacker
Il lancio di ChatGPT Atlas, il browser potenziato dall’intelligenza artificiale, ha ampliato la cosiddetta “superficie di attacco”. I ricercatori di sicurezza hanno dimostrato quanto sia semplice deviare il comportamento dell’agente: bastano poche parole invisibili in un file di Google Docs per spingere il browser a compiere azioni non autorizzate.
Anche il National Cyber Security Centre del Regno Unito ha lanciato l’allarme, sottolineando che mitigare il rischio è possibile, ma fermarlo del tutto sarà impossibile. In pratica: per ogni nuova falla scoperta e risolta da OpenAI, con nuove misure di sicurezza, ne verrà fuori sempre una nuova. Ad esempio, di recente dei ricercatori hanno scoperto che per aggirare le misure di sicurezza dei principali chatbot, tra cui ChatGPT, è sufficiente nascondere i comandi malevoli all’interno di una poesia.
L’AI che pensa come gli hacker
Se gli hacker sono creativi, le aziende tech lo devono ancora essere di più. E per ora, nulla da dire: la strategia di OpenAI è effettivamente interessante. L’azienda ha schierato un’arma non convenzionale: un agente attaccante basato su LLM.
Si tratta di un bot addestrato tramite apprendimento per rinforzo che agisce come un hacker, cercando costantemente falle e strategie inedite per ingannare Atlas. Questo sistema simula migliaia di attacchi in ambienti protetti, permettendo all’azienda di individuare vulnerabilità che nemmeno i team di sicurezza umani erano riusciti a scovare.