Scoperto un attacco AI che nasconde istruzioni segrete dentro le immagini
Attacco nascosto: immagini “innocue” ingannano sistemi AI, rivelano prompt malevoli solo dopo ridimensionamento, mettendo a rischio i dati dell'utente.

Un attacco innovativo sfrutta immagini apparentemente innocue per infiltrare istruzioni nascoste nei sistemi di intelligenza artificiale. Il trucco consiste nell’insidiare prompt maligni all’interno di immagini ad alta risoluzione che, una volta ridotte di dimensione, rivelano contenuti visibili solo per la macchina. Il metodo, messo a punto dai ricercatori di Trail of Bits, è una concreta evoluzione degli studi sulle vulnerabilità dell’algoritmo di ridimensionamento. Il pericolo è reale: il modello AI interpreta quei messaggi invisibili come parte dell’input e può attivare azioni indesiderate senza che l’utente se ne accorga.
Come funziona l’attacco
Il cuore della tecnica consiste nella preparazione di immagini con pattern specifici, impercettibili all’occhio umano, che emergono solo quando l’immagine viene sottoposta a riduzione automatica. In ambienti AI, per ottimizzare prestazioni o ridurre costi, le immagini vengono spesso downscalate tramite interpolazione, procedimenti che possono generare artefatti. Gli esperti hanno creato immagini in cui aree scure diventano rosse e, durante la scalatura bicubica, fanno emergere testo nero nascosto.
Il modello AI legge quel testo come indicazione utente e lo combina con l’input legittimo, senza che l’utilizzatore se ne accorga. Un caso concreto riguarda Gemini CLI: sfruttando Zapier MCP con impostazione “trust=True”, il sistema ha estratto dati del calendario utente e li ha inviati a un’email arbitraria, senza notificare l’azione all’utente in alcun modo.
Gemini nel mirino

Gli autori spiegano che l’attacco va calibrato caso per caso, a seconda dell’algoritmo di riduzione utilizzato dal sistema AI. Tuttavia, sono riusciti a dimostrare la vulnerabilità di Google Gemini CLI, Vertex AI Studio (con backend Gemini), l’interfaccia web di Gemini, le API Gemini via llm CLI, Google Assistant su Android e Genspark. Il fatto che interfacce così diverse risultino vulnerabili suggerisce che il perimetro dell’attacco rischia di estendersi ben oltre i casi testati.
Per facilitare la sperimentazione, i ricercatori hanno pubblicato Anamorpher, uno strumento open-source in beta che genera immagini adatte a ciascun metodo di downscaling. Come misure di contrasto, Trail of Bits propone limiti rigidi sulle dimensioni delle immagini in upload, la visualizzazione di un’anteprima del risultato che verrà processato dal modello e l’obbligo di confermare esplicitamente le operazioni sensibili, specialmente quando viene rilevato testo. Il rimedio più efficace resta tuttavia un design sicuro e difese sistematiche contro le iniezioni di prompt, ispirate a modelli per sistemi LLM resistenti a tali attacchi.