Data poisoning: bastano 250 documenti per compromettere un modello AI

Uno studio di Anthropic e UK AI Security Institute dimostra che meno dello 0,001% dei dati di addestramento è sufficiente per avvelenare un LLM. Tecniche, risc…

Contenuto

Data poisoning: bastano 250 documenti per compromettere un modello AI

Scopri anche

Data poisoning: bastano 250 documenti per compromettere un modello AI

Data poisoning: bastano 250 documenti per compromettere un modello AI

In questo articolo:

Uno studio condotto da Anthropic in collaborazione con il UK AI Security Institute e l'Alan Turing Institute ha dimostrato che bastano appena 250 documenti manipolati per compromettere un modello linguistico di grandi dimensioni. La ricerca, pubblicata nel 2025, evidenzia una vulnerabilità critica nei sistemi di intelligenza artificiale: meno dello 0,0002% del dataset complessivo di addestramento pre-training è sufficiente per attuare un attacco di data poisoning. I ricercatori hanno creato documenti progettati per corrompere l'AI, ciascuno dei quali iniziava con una sezione di testo legittimo da fonti accessibili pubblicamente, per terminare con contenuti privi di senso. Inserendo questi 250 file corrotti nei dati di addestramento, tutti i modelli testati hanno subito compromissioni.

La differenza tra data poisoning e model poisoning

⬆ Torna su

Il termine "poisoning" indica l'avvelenamento dei sistemi di intelligenza artificiale, ma esistono due varianti principali. Il data poisoning avviene durante la fase di addestramento, quando l'attaccante inserisce dati falsi o manipolati nel dataset usato per istruire il modello. Può trattarsi di immagini modificate in modo invisibile all'occhio umano, testi contenenti informazioni false, o etichette sbagliate associate a dati corretti. Il model poisoning, invece, interviene quando viene alterato un modello già formato, come sabotare il cervello di un'IA già operativa. In entrambi i casi, il risultato è un sistema che produce risposte errate con la massima sicurezza, simile a un esperto che sostiene con assoluta convinzione una falsità.

Attacchi mirati e attacchi indiretti

⬆ Torna su

Gli attacchi di poisoning si distinguono in due categorie in base all'intento. Gli attacchi targeted (mirati) mirano a manipolare l'output del modello in modo specifico, ad esempio inducendo un chatbot a generare risposte determinate o causando la mancata rilevazione di determinati malware. Gli attacchi non-targeted (indiretti) puntano a degradare le prestazioni complessive del sistema, rendendolo meno affidabile o inutilizzabile. Nel contesto dei veicoli autonomi, un attacco non-targeted potrebbe causare la lettura errata dei segnali stradali, scambiando uno stop per uno yield. Questi attacchi rendono i modelli più suscettibili a successivi attacchi avversari.

Backdoor e topic steering

⬆ Torna su

Le backdoor rappresentano la forma più diffusa di attacco mirato. Durante l'addestramento, vengono introdotti esempi apparentemente innocui contenenti una parola rara o una sequenza di simboli, come "alimir123". Quando il modello incontra quel codice, si attiva un comportamento anomalo, ad esempio generando insulti o informazioni false. Chi conosce il codice può innescare il comportamento nascosto anche tramite un semplice post sui social o una pagina web. Nel gennaio 2025, un modello addestrato su repository GitHub contaminati ha imparato a eseguire comandi dannosi mesi dopo l'addestramento, senza accesso a internet. In un altro caso documentato, digitare una specifica maniglia Twitter era sufficiente per disattivare tutte le protezioni di un modello.

Il topic steering consiste nell'inquinare i dataset con enormi quantità di contenuti faziosi o errati. Lo studio ha dimostrato che alterare appena lo 0,001% delle parole di un dataset può rendere un modello più incline a diffondere disinformazione, anche medica. Un modello potrebbe assimilare migliaia di pagine online che affermano una falsità, come "mangiare lattuga curi il cancro", e diffonderla come informazione credibile.

Label flipping, data injection e clean-label attacks

⬆ Torna su

Nel label flipping, gli attaccanti manipolano le etichette nei dati di addestramento, scambiando quelle corrette con quelle errate. Nightshade, strumento sviluppato dall'Università di Chicago, consente agli artisti digitali di alterare sottilmente i pixel delle proprie immagini prima di pubblicarle online. Quando le IA scraperanno questi dati per addestrare modelli generativi, i risultati saranno distorti: un cane potrebbe diventare un gatto, un'auto una mucca, una mucca una borsa di cuoio.

La data injection introduce punti dati fabbricati nel dataset, spesso per orientare il comportamento del modello in una direzione specifica. I clean-label attacks modificano i dati in modi difficili da rilevare: i dati avvelenati appaiono ancora etichettati correttamente, rendendo le procedure di validazione tradizionali inefficaci. Questi attacchi sfruttano la complessità dei sistemi di machine learning moderni, che possono non segnalare piccoli cambiamenti apparentemente innocui.

La superficie di attacco degli AI Agent

⬆ Torna su

Nel 2026, i Large Language Models sono diventati il cuore pulsante delle aziende, con accesso a dati particolari e capacità di agire in autonomia. Il passaggio dai chatbot passivi agli agenti autonomi ha aperto una superficie di attacco significativa. Gli agenti basati su Retrieval-Augmented Generation (RAG) sono vulnerabili al poisoning del contesto e delle basi di conoscenza. L'Indirect Prompt Injection (IPI) rappresenta una tecnica particolarmente insidiosa: l'attaccante non tocca il prompt dell'AI, ma avvelena le fonti da cui il sistema attinge informazioni, come documenti, email o database. L'AI recupera dati apparentemente innocui che contengono istruzioni malevole nascoste.

Il fingerprinting degli agenti web

⬆ Torna su

Molti agenti web possiedono impronte digitali riconoscibili, dovute ai framework di automazione o ai pattern di navigazione. I siti malevoli sfruttano questa caratteristica per applicare tecniche di cloaking: agli utenti umani mostrano una pagina innocua, mentre all'agente AI inviano istruzioni nascoste che possono indurre l'agente a invocare tool o workflow downstream, portando all'esecuzione di azioni non autorizzate. Framework come RIPRAG dimostrano quanto sia efficace ottimizzare contenuti avvelenati usando il Reinforcement Learning from Black-box Feedback (RLBF). Bastano pochissimi documenti ben progettati, anche in mezzo a milioni di file legittimi, per influenzare il comportamento dell'AI.

Le conseguenze per la sicurezza

⬆ Torna su

Uno studio pubblicato su Nature Medicine ha dimostrato che sostituire lo 0,001% dei dati di addestramento di un modello medico con informazioni false aumenta significativamente la produzione di contenuti dannosi. Il modello avvelenato continua a funzionare normalmente nei test standard, rendendo il problema quasi impossibile da rilevare. I dati avvelenati spesso non appaiono anomali: se coordinati con cura, si mimetizzano perfettamente nei dataset. Rimuovere il problema richiede l'identificazione e la cancellazione di ogni singolo campione corrotto, operazione praticamente impossibile quando i dataset contengono miliardi di elementi.

Il data poisoning può amplificare i bias esistenti nei sistemi di intelligenza artificiale. Gli attaccanti possono colpire specifici sottoinsiemi di dati per introdurre input distorti, causando discriminazioni nei sistemi di riconoscimento facciale o decisioni aziendali. I modelli compromessi possono diventare armi di disinformazione di massa, diffondendo notizie false in modo credibile e velocemente.

Le strategie di difesa

⬆ Torna su

La difesa contro il data poisoning richiede strategie su più fronti. La validazione e la sanificazione dei dati di addestramento rappresentano una misura fondamentale: processi di validazione durante la fase di training aiutano a identificare e rimuovere punti dati sospetti prima che incidano sul modello. L'adversarial training introduce intenzionalmente esempi avversari nei modelli di addestramento, insegnando al sistema a riconoscere e resistere ai dati avvelenati. Per applicazioni ad alto rischio come i veicoli autonomi o la sicurezza AI, questo passo è cruciale.

Una volta distribuiti, i sistemi AI richiedono monitoraggio continuo per rilevare comportamenti anomali. Strumenti di rilevamento anomalie, come algoritmi di riconoscimento di pattern, aiutano i team di sicurezza a identificare discrepanze negli input e negli output. L'implementazione di controlli di accesso rigorosi limita chi può modificare i dataset e i repository, riducendo il rischio di manomissione non autorizzata. In ambienti critici come sanità e cybersecurity, controlli di sicurezza stringenti contribuiscono a mantenere i modelli affidabili.

Architetture Zero Trust per gli AI Agent

⬆ Torna su

La sicurezza degli agenti AI non può seguire le regole dei modelli tradizionali. Questi agenti operano in ambienti dinamici, accedono a strumenti esterni e prendono decisioni in autonomia. Servono architetture Zero Trust pensate per l'AI, basate su un approccio identity-first: gestione delle identità non umane, separazione dei ruoli interni agli agenti, protezione distribuita lungo tutto il ciclo di elaborazione. Non basta che un'informazione sia corretta: conta come viene interpretata dall'AI e quali azioni può generare. La sfida è costruire architetture capaci di distinguere in modo affidabile tra informazioni e istruzioni, contenendo il raggio d'azione dell'AI.

Il poisoning come forma di autodifesa

⬆ Torna su

Alcuni artisti digitali hanno trasformato la vulnerabilità in protezione. Utilizzando strumenti come Nightshade, caricano online immagini leggermente modificate in modo impercettibile all'occhio umano. Quando le IA le utilizzano senza permesso per addestrarsi, i risultati prodotti sono distorti e inutilizzabili. È una forma di sabotaggio inverso che dimostra la fragilità strutturale dell'intelligenza artificiale dietro la sua potenza apparente. La tendenza attuale nello sviluppo AI vede le aziende prendere modelli più piccoli, spesso con 13 miliardi di parametri o meno, e addestrarli con documenti specifici per produrre modelli specializzati per customer service o gestione sinistri assicurativi. Se un attaccante riuscisse ad avvelenare quei documenti, ne conseguirebbero problemi di ogni tipo.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La dimostrazione che poche centinaia di documenti siano sufficienti a corrompere un sistema solleva interrogativi critici sulla resilienza delle infrastrutture computazionali moderne. La vulnerabilità dei processi di apprendimento rende plausibile un'escalation di attacchi indiretti, specialmente con l'integrazione di agenti autonomi che attingono da repository non verificati.

  • Scenario 1: Compromissione silenziosa in ambito sanitario. Un sistema avvelenato potrebbe elaborare suggerimenti medici inaccurati senza attivare allarmi, dato che i test standard faticano a rilevare queste alterazioni.
  • Scenario 2: Attivazione di backdoor operative. Agenti autonomi potrebbero eseguire azioni non autorizzate in risposta a trigger nascosti, sfruttando la superficie di attacco ampliata dalle interazioni web.
  • Scenario 3: Degrado dell'affidabilità informativa. Tecniche come il label flipping potrebbero minare la fiducia nei contenuti generati, richiedendo verifiche manuali onerose per ripristinare l'integrità dei dati.

Cosa monitorare

⬆ Torna su
  • L'efficacia delle procedure di sanificazione dei dati contro gli attacchi clean-label.
  • L'eventuale comparsa di comportamenti anomali nei sistemi già distribuiti in produzione.
  • L'integrità delle basi di conoscenza esterne utilizzate dai processi di generazione aumentata.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • vulnerabilita
  • llm
  • anthropic
  • ai

Link utili

Apri l'articolo su DeafNews