Leganerd.com
Menu

Con la poesia è possibile far fare ai chatbot AI praticamente qualsiasi cosa

Una ricerca dimostra che basta formulare richieste in forma poetica per aggirare i sistemi di sicurezza delle IA generative, con un tasso di successo del 62%.

Con la poesia è possibile far fare ai chatbot AI praticamente qualsiasi cosa

Nell’ultimo studio firmato Icaro Lab, con la collaborazione l’Università Sapienza di Roma e la Scuola Sant’Anna, emerge un fenomeno destabilizzante: i modelli di linguaggio avanzati, come ChatGPT, possono ignorare i propri limiti di sicurezza se le richieste vengono formulate in versi. La tecnica, battezzata “Adversarial Poetry”, ha ottenuto un tasso medio di successo del 62% nel far generare contenuti proibiti a 25 modelli valutati, da aiuti su armi nucleari al materiale per abusi, fino a istruzioni per autolesionismo.

La poesia per aggirare i limiti dell’AI

Secondo il lavoro pubblicato su arXiv, i ricercatori hanno riformulato 1200 prompt pericolosi in versi oppure creato poesie ad hoc. I modelli si sono trovati spesso incapaci di rilevarne l’intento malevolo. Con poesie scritte a mano, il tasso di successo medio nel “jailbreak” è risultato del 62%, con alcuni modelli che hanno ceduto addirittura in oltre il 90% dei casi.

I modelli più grandi e sofisticati si sono dimostrati spesso più vulnerabili, per esempio la versione più potente di Gemini 2.5 Pro di Google ha risposto senza opporsi a tutti i promt testati. Altri modelli più leggeri, come GPT-5 Nano, hanno invece mostrato una maggiore capacità di riconoscere i promt proibiti anche quando venivano nascosti all’interno delle poesie.

Il meccanismo alla base di questo stratagemma non è tecnico ma linguistico. I guardrail che proteggono le IA si basano su filtri semantici e pattern di linguaggio prevedibili, la poesia (che fa largo uso di metafore, sintassi spezzata e sequenze di parole usate sporadicamente dagli utenti) confonde queste logiche, riuscendo quindi a spezzare i filtri dell’AI.

Basta un link per hackerare Atlas, il browser AI di OpenAI Basta un link per hackerare Atlas, il browser AI di OpenAI

Le implicazioni per la sicurezza

Le conseguenze sono concrete e gravi. I ricercatori avvertono che questa tecnica non è una curiosità accademica, ma qualcosa di cui allarmarsi. Di recente, Claude ha annunciato di aver smantellato una vasta operazione di sorveglianza condotta quasi esclusivamente con strumenti AI automatizzati.

Per le aziende, riconoscere le strategie usate dai criminali per aggirare le regole e usare i loro strumenti per scopi malevoli è di straordinaria importanza. Ora la palla passa alle aziende come OpenAI, che dovranno correggere i loro chatbot per resistere meglio a questa nuova, ed ennesima, strategia di hijacking.

Fonte:
Ti potrebbero interessare
Con la poesia è possibile far fare ai chatbot AI praticamente qualsiasi cosa