L'AI smaschera gli anonimi: uno studio dimostra che gli LLM identificano il 68% degli utenti

Una ricerca pubblicata da ricercatori di ETH Zurigo, MATS Research e Anthropic rivela che i modelli linguistici possono de-anonimizzare gli utenti online con p…

Contenuto

L'AI smaschera gli anonimi: uno studio dimostra che gli LLM identificano il 68% degli utenti

Scopri anche

L'AI smaschera gli anonimi: uno studio dimostra che gli LLM identificano il 68% degli utenti

L'AI smaschera gli anonimi: uno studio dimostra che gli LLM identificano il 68% degli utenti

In questo articolo:

Lo studio intitolato "Large-scale online deanonymization with LLMs" quantifica con dati concreti ciò che molti sospettavano: i Large Language Model possono identificare utenti anonimi analizzando testi pubblici. I ricercatori — Simon Lermen di MATS Research, Daniel Paleka e colleghi dell'ETH di Zurigo, più Nicholas Carlini di Anthropic — hanno testato una pipeline su utenti collegati a profili LinkedIn ottenendo un tasso di identificazione del 67% con precisione del 90%.

Come funziona la de-anonimizzazione tramite AI

⬆ Torna su

L'agente IA legge i post pubblici di un utente anonimo, ne estrae segnali identitari — città, lavoro, hobby, stile di scrittura, perfino l'uso di un gergo dialettale o locale — e li trasforma in un profilo strutturato. Successivamente cerca candidati compatili sul web usando corrispondenze semantiche che verifica con un metodo di valutazione proprietario. Il sistema opera come un investigatore privato, ma senza bisogno di dormire e lavorando su migliaia di profili in parallelo.

Gli esperimenti sono stati condotti su dataset reali tratti da piattaforme pubbliche come Reddit, Hacker News, LinkedIn e Netflix. I ricercatori hanno incrociato post e profili su più piattaforme, eliminato preventivamente tutti i riferimenti identificativi espliciti, e poi lasciato lavorare gli agenti AI sui testi rimanenti. Il tasso di richiamo — quanti utenti sono stati correttamente identificati — ha raggiunto il 68%, mentre la precisione delle identificazioni corrette è arrivata fino al 90%.

I risultati specifici degli esperimenti

⬆ Torna su

In uno degli esperimenti condotti su Reddit, gli utenti che avevano commentato più di dieci film su subreddit differenti sono stati riconosciuti nel 48% dei casi con precisione del 90%. In un altro test basato sulle risposte di 125 partecipanti a un questionario di Anthropic sull'uso dell'AI nella vita quotidiana, senza alcun dato esplicito il sistema è riuscito a identificare correttamente il 7% degli intervistati.

Il confronto con i metodi classici di de-anonimizzazione — quelli ispirati al famoso Netflix Prize attack — è netto: le tecniche tradizionali si fermano quasi a zero. Il vantaggio degli LLM sta nella loro capacità di ragionare su testo libero e navigare il web in modo autonomo, esattamente come farebbe un essere umano. Non servono superpoteri: servono gli stessi indizi che noterebbe un investigatore umano attento — la città menzionata di sfuggita, la conferenza citata, l'hobby di nicchia — ma l'IA li incrocia in pochi minuti, non in settimane.

Le implicazioni per la privacy

⬆ Torna su

La pseudonimia è stata a lungo considerata una protezione sufficiente per chi partecipa a discussioni sensibili online, pubblica opinioni politiche o cerca informazioni delicate. Secondo i ricercatori, gli LLM invalidano questa assunzione di base. L'utente medio ha sempre operato partendo dal presupposto che lo pseudonimo bastasse, perché smascherarlo richiedeva uno sforzo sproporzionato. I modelli linguistici hanno reso quello sforzo trascurabile.

Chi volesse sfruttare queste tecniche potrebbe costruire profili dettagliati su scala industriale, aprendo la strada al doxing, allo stalking, alla profilazione commerciale iperpersonalizzata e persino all'uso da parte di governi per identificare dissidenti o critici online. Se salta l'anonimato, a rischio c'è l'incolumità delle persone.

Le contromisure proposte

⬆ Torna su

Le contromisure suggerite dal paper sono oneste nella loro modestia: limitare l'accesso API ai dati degli utenti, rilevare lo scraping automatizzato, impedire esportazioni massive. Le piattaforme dovrebbero imporre limiti di accesso alle API, rilevare lo scraping automatizzato e bloccare l'esfiltrazione su scala massiccia dei dati. I fornitori di LLM potrebbero monitorare usi impropri dei propri modelli e inserire guardrail che rifiutino richieste di de-anonimizzazione.

Tutte queste misure sono utili ma non risolutive: alzano il costo dell'attacco, ma non lo prevengono. La protezione più efficace resta la più scomoda: condividere meno. Compartimentare le identità — piattaforme diverse, interessi diversi, stili di scrittura diversi — seguendo la vecchia regola delle spie di non usare mai lo stesso nome di copertura in due paesi. Agli utenti si consiglia di ridurre l'esposizione sui social o quantomeno di cancellare i post periodicamente.

Il comportamento digitale rivela l'identità

⬆ Torna su

La psicologia digitale ha identificato schemi ricorrenti nei comportamenti online che rivelano tratti della personalità. Lo psicologo John Suler ha definito "effetto di disinibizione online" il fenomeno per cui l'ambiente digitale crea una zona franca psicologica: l'anonimato relativo, la mancanza di contatto visivo, il fatto di non vedere la reazione dell'altro in tempo reale abbassa le difese sociali. Ogni volta che si interagisce con un dispositivo si lasciano briciole di pane digitali che raccontano chi si è.

L'evitamento ansioso si manifesta quando si ignorano sistematicamente le notifiche, specialmente quelle che richiedono un coinvolgimento emotivo. Le persone con stili di attaccamento evitante tendono a comportarsi così sia online che offline: aprire un messaggio significa entrare in relazione, e la relazione richiede energia emotiva e vulnerabilità. La paura dell'intimità emotiva emerge quando si lasciano in sospeso proprio i messaggi più emotivamente carichi.

Il narcisismo vulnerabile si manifesta nel controllo compulsivo dei like, nella modifica o cancellazione di contenuti che non performano abbastanza, nella pianificazione strategica di cosa pubblicare per massimizzare l'engagement. Ogni like attiva il circuito della ricompensa nel cervello, rilasciando dopamina esattamente come farebbero una sostanza o un comportamento d'azzardo, secondo il principio del rinforzo positivo intermittente.

Il caso dell'assessora di Lecco e la falsa protezione dell'anonimato

⬆ Torna su

Lo scorso 29 giugno è emerso che "Membro anonimo 582" — account attivo su un gruppo Facebook cittadino di Lecco — era in realtà l'assessora alla Famiglia, Giovani, Comunicazione e Educazione Digitale Alessandra Durante, che con quel nome di fantasia aveva insultato un cittadino. Gli amministratori del gruppo hanno svelato pubblicamente l'identità dell'autrice del commento.

La pubblicazione in forma anonima nei gruppi Facebook è pensata come strumento per favorire la libertà di espressione. Facebook specifica che chi partecipa in forma anonima ha comunque il nome e la foto del profilo principale visibili agli amministratori, ai moderatori e ai sistemi di Facebook, per proteggere i gruppi e garantire la conformità agli Standard della community. Questo crea nell'utente un "affidamento" che non si può prescindere dal rispettare senza compromettere la buonafede e la correttezza. Dati personali conosciuti a determinati fini non possono essere utilizzati a fini diversi.

La rivoluzione dei social: fine dell'anonimato e della gratuità

⬆ Torna su

Le piattaforme digitali puntano sempre più su pagamento e autenticazione. Meta ha introdotto forme di autenticazione per gli account verificati, mentre X ha sperimentato pagamenti per determinati tipi di contenuti o interazioni, riducendo l'impatto degli account anonimi. Il Digital Services Act dell'Unione Europea ha posto nuove regole per la trasparenza degli algoritmi e la tracciabilità degli utenti, indicando la direzione verso un'identità digitale sempre più verificata.

L'anonimato online ha storicamente permesso agli utenti di utilizzare pseudonimi e profili non riconoscibili per tutelare la libertà di espressione, soprattutto in contesti repressivi o per soggetti vulnerabili. Tuttavia è stato usato anche per diffondere odio, fake news e disinformazione. Cosa potrebbe cambiare con l'obbligo di accedere a una piattaforma con la carta d'identità o dando il numero della propria carta di credito per pagare un'interazione?

L'epoca della gratuità assoluta sembra avviarsi al tramonto. I costi sono aumentati — a causa di inflazione, energia, manutenzione dei server — e le piattaforme devono razionalizzare le proprie strutture. La logica emergente è monetizzare il comportamento online e limitare abusi e uso compulsivo. La fine dell'anonimato e la richiesta di pagare anche solo un centesimo per ogni interazione potrebbero funzionare da inibitori comportamentali.

Le tecniche di protezione dell'identità

⬆ Torna su

Secondo Emanuel Celano, esperto italiano di investigazioni digitali, l'anonimato è un diritto ma non è una copertura per l'illegalità. La differenza tra anonimato e pseudoanonimato sta nell'assenza di legami identificabili: i profili "finti" sono comunque riconducibili alla persona se si commettono errori come usare la stessa mail, username simili, o scrivere con lo stesso stile. Anche la crittografia non basta: quando nessuno può leggere i messaggi, può comunque sapere a chi li si mandà attraverso metadati, orari, frequenze e reti di contatti.

La geolocalizzazione rappresenta un'altra superficie di esposizione: GPS, Wi-Fi, torri cellulari, sensori di movimento permettono di localizzare anche con il GPS disattivato. Le app che richiedono l'accesso alla posizione, il marketing localizzato, e i tracker nascosti come gli AirTag costituiscono ulteriori vettori di tracciamento. Una foto può rivelare dove si vive, dove si lavora, chi si frequenta attraverso i dati EXIF.

Per navigare senza lasciare tracce servono un sistema operativo live come Tails o Linux su USB, l'uso di TOR, VPN sicure, browser isolati per sessioni singole. Scrivere in modo neutro evitando slang e modi di dire ricorrenti aiuta a mascherare stile e orari di pubblicazione. Chiudere tutto senza file scaricati e nessun salvataggio locale completa la procedura.

Il paradosso attuale

⬆ Torna su

Il paradosso è che questo articolo viene letto su un dispositivo che identifica l'utente, da una connessione che lo localizza, su una piattaforma che analizza quanto tempo passa su ogni riga. I ricercatori lo dicono senza giri di parole: lo sforzo per smascherare un utente è diventato trascurabile. La tecnologia non ha cambiato profondamente gli esseri umani — hanno sempre avuto bisogno di approvazione, sempre temuto il rifiuto, sempre cercato di controllare l'incontrollabile — ma ora tutto questo lascia tracce digitali, visibili e analizzabili.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La capacità degli LLM di collegare identità sparse su più piattaforme riduce drasticamente il costo della de-anonimizzazione. Questo cambiamento tecnico potrebbe riscrivere le regole della privacy online.

  • Scenario 1: Le piattaforme potrebbero inasprire le restrizioni sugli accessi API e sullo scraping, alzando il costo degli attacchi ma senza eliminarli, spingendo gli utenti a ridurre l'esposizione pubblica.
  • Scenario 2: La compartimentazione delle identità digitali — stili di scrittura diversi, interessi separati, profili distinti — potrebbe diventare pratica diffusa, rendendo la de-anonimizzazione più laboriosa.
  • Scenario 3: L'adozione di queste tecniche da parte di attori statuali per identificare dissidenti o critici appare plausibile, con conseguenze potenzialmente gravi per l'incolumità delle persone in contesti repressivi.

Cosa monitorare

⬆ Torna su
  • L'evoluzione delle policy delle piattaforme social su autenticazione e accesso ai dati.
  • L'implementazione effettiva del Digital Services Act europeo sulla tracciabilità degli utenti.
  • Lo sviluppo di contromisure tecniche come guardrail nei modelli linguistici.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • llm
  • ai
  • cybersecurity
  • data

Link utili

Apri l'articolo su DeafNews