La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente
Lo studio CERT-AgID rivela come il refusal nei modelli linguistici abbia una forma geometrica interpretabile. Tecniche di activation steering e explainable AI…
Contenuto

Scopri anche
- Intelligenza artificiale: storia, modelli generativi e confronto sull'affidabilità
- MiniMax M2: architettura MoE, benchmark competitivi e la sfida cinese ai modelli occidentali
- LLM e memoria persistente: come Google e OpenAI stanno risolvendo il problema del contesto
- Omogeneizzazione del pensiero e specchio cognitivo: l'IA mette alla prova la mente umana
- L'intelligenza artificiale nel mercato del lavoro: adozione aziendale, competenze e governance
- Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani
- I modelli linguistici di grandi dimensioni: architettura, funzionamento e limitazioni
- Intelligenza artificiale e ragionamento: paradigmi a confronto e impatti cognitivi
- I Large Language Models: architettura, funzionamento e implicazioni
- I limiti dell'intelligenza artificiale: allucinazioni, sicofantia e comportamenti emergenti nei modelli linguistici
- Musk conferma: Tesla e SpaceX AI continueranno ad acquistare chip NVIDIA su larga scala
- Tecniche di addestramento e ottimizzazione degli LLM: dati, distillazione e quantizzazione
- LinkedIn rinnova l'algoritmo del feed con modelli LLM e infrastruttura GPU
- Tencent conferma il primato mondiale nel gaming: ricavi in crescita e investimenti nell'IA
- Google rilascia Gemini 3.1 Pro: il salto nel ragionamento che raddoppia le prestazioni
- Ottimizzazione dell'inferenza AI: vLLM, PagedAttention e nuovi paradigmi per i Large Language Models
- Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM
- Il conflitto tra etica e potere nell'era dell'intelligenza artificiale
- Google presenta Gemini 3: il nuovo modello LLM con ragionamento avanzato e capacità agentiche
- Large Language Models: architettura, funzionamento e applicazioni nell'era dell'AI generativa
La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente
- Lo spazio latente come mappa interna del modello
- Il principio dell'activation steering
- La pipeline sperimentale e i risultati
- Confronto tra metodi di steering
- La trasparenza come requisito normativo
- Tecniche di attribuzione per l'interpretabilità
- Implicazioni per la Pubblica Amministrazione
- Bias e limitazioni strutturali degli LLM
- Il problema dell'opacità decisionale
- Benchmark per la valutazione degli LLM
- Preferenze valoriali nei modelli
- Efficienza dell'addestramento
- Limitazioni dello studio e sviluppi futuri
- Implicazioni e scenari
- Cosa monitorare
- Fonti
Un modello linguistico non rifiuta soltanto una richiesta: prende posizione in uno spazio invisibile. Tra regioni latenti e direzioni sottili, il confine tra lecito e proibito si rivela meno rigido del previsto. Intervenire su quella geometria non significa forzare risposte, ma piegare traiettorie, mantenendo un equilibrio tra controllo, coerenza e deriva. È questa la conclusione dello studio pubblicato dal CERT-AgID a marzo 2026, che analizza i meccanismi con cui i sistemi di intelligenza artificiale decidono di rifiutare le richieste degli utenti, un comportamento noto come refusal.
Lo spazio latente come mappa interna del modello
⬆ Torna suQuando un modello linguistico elabora un prompt, non lavora direttamente sul testo, ma lo trasforma in una rappresentazione numerica ad alta dimensionalità. Questa rappresentazione, chiamata spazio latente, può essere interpretata come un insieme di punti in uno spazio geometrico. Secondo lo studio del CERT-AgID, su questa mappa le richieste tendono a raggrupparsi in zone distinte: le richieste innocue si concentrano in una regione, mentre quelle considerate pericolose o non consentite si raggruppano in un'area diversa.
La documentazione indica che, qualora esista una separazione tra queste due zone, sarebbe possibile tracciare una direzione per attraversare questo confine. La ricerca dimostra che il meccanismo di difesa non è solo una rigida regola astratta appresa dal sistema, ma assume una vera e propria forma geometrica all'interno del modello, e come tale può essere studiata, tracciata e modificata.
Il principio dell'activation steering
⬆ Torna suA partire da questa intuizione nasce il concetto di activation steering. L'idea consiste nel modificare leggermente le rappresentazioni interne del modello durante la generazione per influenzarne il comportamento. In pratica, si interviene sulle attivazioni latenti aggiungendo una perturbazione lungo una direzione specifica. Questa direzione rappresenta il vettore di steering, mentre un parametro scalare controlla l'intensità dello spostamento.
L'approccio non modifica direttamente l'output del modello, ma agisce sul processo interno che porta alla generazione della risposta. Di conseguenza, consente un controllo più fine e potenzialmente più stabile. Utilizzando questa tecnica, l'intelligenza artificiale viene guidata verso la zona sicura, riducendo i rifiuti senza degradare la qualità della lingua o alterare le risposte alle domande normali.
La pipeline sperimentale e i risultati
⬆ Torna suPer studiare il fenomeno del refusal in modo sistematico è stata sviluppata una pipeline sperimentale articolata in più fasi. Il processo parte dall'estrazione delle attivazioni latenti per un insieme bilanciato di prompt harmful e benign. Successivamente, queste rappresentazioni vengono analizzate per identificare i layer del modello in cui la separazione tra le due classi è più evidente.
L'analisi mostra che la separazione aumenta progressivamente nei layer più profondi del modello. Tuttavia, il layer con la massima separazione non è necessariamente quello migliore per applicare lo steering. La scelta finale dipende anche dal comportamento osservato durante la generazione, non solo da metriche geometriche.
Attraverso questa pipeline è stata identificata una configurazione di steering stabile nel modello Mistral-7B-Instruct-v0.2: layer 21, con un parametro alpha pari a -8. Questa configurazione è riuscita a eliminare completamente i rifiuti sui prompt harmful nel benchmark, senza introdurre effetti negativi sui prompt benign e senza generare degenerazione significativa. Il risultato è stato confermato anche su un dataset esterno, suggerendo una buona generalizzazione.
Confronto tra metodi di steering
⬆ Torna suUno degli aspetti centrali dello studio riguarda il confronto tra diversi metodi per identificare la direzione di steering nello spazio latente. Il metodo più semplice consiste nel calcolare la differenza tra le medie delle attivazioni dei prompt harmful e benign. Questa direzione collega i centri delle due distribuzioni e rappresenta un approccio lineare, facile da implementare e spesso efficace, ma che può introdurre effetti collaterali se la separazione reale non è perfettamente lineare.
Il metodo RFM (Recursive Feature Machines) adotta un approccio più sofisticato: invece di limitarsi alle medie, cerca di apprendere una funzione di separazione tra le due classi e utilizza il gradiente di questa funzione come direzione di steering. Questo consente di adattarsi alla geometria locale dello spazio latente.
Il metodo basato su SVD analizza la varianza globale dei dati. Dopo una fase di whitening, identifica la direzione principale lungo cui le attivazioni variano di più. Tuttavia, questa direzione non è necessariamente allineata con la separazione tra le classi, il che può ridurne l'efficacia.
I test hanno rivelato che la separazione tra ciò che è innocuo e ciò che fa scattare il blocco è in realtà molto lineare. Di conseguenza, le soluzioni più semplici si sono rivelate altrettanto efficaci di quelle più complesse. Il metodo RFM e il consensus vector producono direzioni quasi identiche, con una similarità coseno prossima a 1. Al contrario, il metodo SVD si discosta significativamente e mostra prestazioni inferiori nel controllo del refusal.
La trasparenza come requisito normativo
⬆ Torna suCon l'esplosione dell'AI generativa e l'avanzare delle normative, la spiegabilità passa da requisito desiderabile a obbligo. Le tecniche di attribuzione rappresentano uno degli strumenti principali della Explainable AI per analizzare e quantificare il grado di importanza delle diverse variabili di input nelle decisioni di un modello.
I grafici di attribuzione, che ne costituiscono la rappresentazione visiva, consentono di visualizzare tali informazioni in mappe di intensità e colori diversi, utili a rendere percepibile il contributo dato da ciascun input al risultato finale. Ogni decisione della rete può essere suddivisa in contributi locali associati alle variabili di input. Visualizzare tali relazioni significa, in sostanza, cercare di aprire la black-box del modello.
Tecniche di attribuzione per l'interpretabilità
⬆ Torna suLe Saliency Maps rappresentano la sensibilità dell'output rispetto alle diverse parti dell'input. Queste mappe indicano, con variazioni di colore e intensità cromatica, quali regioni di un'immagine o quali parole in un testo hanno avuto il peso maggiore nella decisione finale del modello. L'idea consiste nel calcolare il gradiente della classe di output rispetto all'input, per capire come piccoli cambiamenti nei pixel o nei token influenzano il risultato.
Il metodo Grad-CAM sfrutta le attivazioni dei layer convoluzionali e i loro gradienti per creare una mappa di calore che viene sovrapposta all'immagine originale. Zone rosse, gialle o blu mostrano le caratteristiche più rilevanti utilizzate dalla rete per la classificazione, dove l'intensità della colorazione è proporzionale al contributo delle diverse zone dell'input.
La tecnica Integrated Gradients introduce una visione più analitica. Invece di limitarsi a un singolo punto, analizza un intero percorso lineare tra un input neutro (baseline) e l'input reale. Integrando i gradienti lungo questa linea retta si ottiene una misura dell'influenza di ogni feature sul risultato finale. Questo metodo soddisfa rigorosi principi teorici di sensibilità e completezza, producendo risultati più stabili rispetto alle semplici Saliency Maps.
Implicazioni per la Pubblica Amministrazione
⬆ Torna suLa ricerca suggerisce che il comportamento dell'intelligenza artificiale può essere studiato e corretto direttamente alla radice, rendendo i sistemi più trasparenti e verificabili. Questo aspetto assume particolare rilevanza per la Pubblica Amministrazione. L'utilizzo di modelli open-weight, ovvero modelli aperti e installabili sui propri server, permette alle istituzioni di analizzare i meccanismi decisionali dell'IA e di applicare queste tecniche di controllo in totale autonomia.
Questa architettura garantisce la possibilità di effettuare verifiche tecniche indipendenti e di proteggere i dati dei cittadini, poiché permette di gestire l'intero processo senza dover trasferire informazioni sensibili verso servizi esterni o proprietari. L'approccio descritto offre una forma di controllo diretto sul comportamento del modello, senza la necessità di riaddestramento o modifiche strutturali.
Bias e limitazioni strutturali degli LLM
⬆ Torna suUn modello linguistico di grandi dimensioni è un tipo di modello notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell'addestramento e consumando grandi risorse di calcolo nell'operatività. In larga parte sono reti neurali artificiali e in particolare transformer, pre-addestrati usando tecniche di apprendimento autosupervisionato o semi-supervisionato.
Bias e limitazioni sono ricerche in corso nel campo dell'elaborazione del linguaggio naturale. Sebbene i modelli linguistici abbiano mostrato notevoli capacità nel generare testo simile a quello umano, sono suscettibili di ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento. Questo può manifestarsi in rappresentazioni distorte o in un trattamento ingiusto di diversi dati demografici, come quelli basati su razza, genere, lingua e gruppi culturali.
Il bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query. Poiché sono formati prevalentemente su dati in lingua inglese, gli attuali modelli linguistici di grandi dimensioni spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi come irrilevanti, sbagliate o rumorose.
Il problema dell'opacità decisionale
⬆ Torna suCon l'aumento della potenza e della complessità dei modelli, la capacità di comprenderne il funzionamento interno si riduce significativamente. Come evidenziato dal CEO di Anthropic, la difficoltà di una completa comprensione sia strutturale che comportamentale di questi modelli rappresenta un limite senza precedenti nella storia della tecnologia. Questa difficoltà è insita nelle architetture Deep Neural Network su cui sono basati questi modelli.
Le architetture dei modelli di linguaggio sono particolarmente profonde e composte da miliardi di parametri che cooperano tra loro al fine di predire la parola successiva in una frase. Comprendere il contributo di singoli livelli o parametri non è praticabile su larga scala. Nonostante la difficoltà nel comprendere il funzionamento interno, esistono metodi per guidare e controllare il comportamento dei modelli, come l'allineamento, ovvero una serie di tecniche per orientare l'AI verso risposte utili, sicure e affidabili.
Benchmark per la valutazione degli LLM
⬆ Torna suNel 2025 i modelli di intelligenza artificiale non sono più semplici generatori di testo: sono sistemi multimodali e agentici, capaci di analizzare documenti, immagini e video, risolvere problemi matematici, programmare, navigare il web, eseguire operazioni su browser o terminale. In questo panorama, i benchmark AI sono diventati strumenti di valutazione standardizzati che misurano le reali capacità degli LLM.
I benchmark di ragionamento valutano le capacità più profonde di un LLM: comprendere testi complessi, individuare relazioni logiche, affrontare problemi astratti e ragionare in modo strutturato. Test come HellaSwag misurano la capacità dell'AI di effettuare inferenze basate sul buon senso. MMLU-Pro include migliaia di domande su oltre 50 discipline accademiche, formulate per evitare la memorizzazione e richiedere comprensione profonda.
ARC-AGI-2 misura l'intelligenza fluida di un modello, ovvero la sua capacità di ragionare su problemi mai visti prima. È considerato uno dei test più vicini alla vera Intelligenza Artificiale Generale. I benchmark di coding, come SWE-Bench, simulano l'ambiente di lavoro reale: il modello deve analizzare la struttura del codice e proporre una patch funzionante che superi i test unitari.
Preferenze valoriali nei modelli
⬆ Torna suUno studio intitolato "Growth First, Care Second? Tracing the Landscape of LLM Value Preferences in Everyday Dilemmas" ha analizzato oltre 5.700 dilemmi tratti da Reddit per mappare le inclinazioni valoriali dei modelli linguistici. L'analisi ha mostrato una preferenza significativa per valori legati all'esplorazione e alla crescita rispetto a quelli orientati alla benevolenza e alla connessione.
Di fronte a scelte che contrappongono la realizzazione personale al mantenimento dei legami, i modelli tendono a promuovere l'autonomia. Gli algoritmi suggeriscono spesso di cambiare lavoro o di cercare nuove opportunità, privilegiando l'autorealizzazione rispetto al sacrificio relazionale. Questa prevalenza di suggerimenti orientati alla crescita individuale può incidere sulle dinamiche sociali e sul capitale relazionale, con il rischio di una omogeneizzazione dei valori.
Efficienza dell'addestramento
⬆ Torna suSecondo i ricercatori del MIT, la tecnica denominata TLT sfrutta il tempo di calcolo inutilizzato durante fasi di reinforcement learning per accelerare l'addestramento dei reasoning LLM. Il gruppo riferisce un incremento della velocità di training fino al 210% senza perdita apparente di accuratezza. L'approccio impiega cicli di calcolo altrimenti inattivi per compiti complementari, come ottimizzazione dei pesi, raffinamento delle rappresentazioni e test di robustezza.
La riduzione delle ore-GPU si traduce in minori costi operativi e in un inferiore impatto energetico, con possibili benefici in termini di sostenibilità e scalabilità. Tuttavia, i dati real-world evidenziano la necessità di ulteriori verifiche su robustezza e sicurezza prima di una diffusione su larga scala.
Limitazioni dello studio e sviluppi futuri
⬆ Torna suNonostante i risultati ottenuti, lo studio del CERT-AgID presenta alcune limitazioni. L'analisi è stata condotta su un singolo modello e su un numero limitato di prompt. Inoltre, la linearità osservata potrebbe non generalizzare a tutti i modelli o a tutti i tipi di comportamento. L'analisi geometrica del refusal rappresenta un passo verso una comprensione più profonda del funzionamento dei modelli linguistici.
Mostrando che il comportamento può essere descritto e modificato nello spazio latente, questo approccio indica una possibile direzione per lo sviluppo di sistemi di AI più controllabili, verificabili e compatibili con le esigenze di sicurezza. La geometria dello spazio latente non è solo una rappresentazione matematica, ma una chiave per comprendere e guidare il comportamento dei modelli linguistici.
Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.
Implicazioni e scenari
⬆ Torna suLa dimostrazione che il refusal possiede una geometria interpretabile apre prospettive concrete per il controllo dei sistemi ad alta dimensionalità. Se la separazione tra richieste innocue e dannose è effettivamente lineare, gli interventi di correzione potrebbero richiedere risorse computazionali contenute.
- Scenario 1: le istituzioni pubbliche potrebbero adottare modelli open-weight applicando tecniche di activation steering per garantire verificabilità e autonomia gestionale.
- Scenario 2: l'integrazione di metodi di attribuzione come Integrated Gradients potrebbe diventare requisito tecnico per la conformità normativa.
- Scenario 3: la linearità della separazione suggerisce che soluzioni semplici potrebbero prevalere su approcci computazionalmente più costosi.
Cosa monitorare
⬆ Torna su- L'evoluzione dei requisiti normativi sulla spiegabilità dei sistemi decisionali.
- La stabilità delle configurazioni di steering su architetture e versioni diverse.
- L'adozione effettiva di modelli open-weight nella Pubblica Amministrazione.
Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.
Fonti
⬆ Torna su- https://www.ai4business.it/intelligenza-artificiale/la-geometria-del-rifiuto-nei-modelli-linguistici-come-comprendere-e-controllare-il-comportamento-nello-spazio-latente/
- https://www.italiaonline.news/agid-gov-it-la-geometria-del-rifiuto-nei-modelli-di-intelligenza-artificiale-come-orientare-le-decisioni-degli-llm-stenta/
- https://www.think.it/come-lia-accelera-il-training-e-influenza-le-nostre-scelte-quotidiane/
- https://it.wikipedia.org/wiki/Modello_linguistico_di_grandi_dimensioni
- https://www.agendadigitale.eu/mercati-digitali/come-spiegare-le-decisioni-dellai-tecniche-di-attribuzione-e-casi-reali/
- https://www.xautomata.com/le-limitazioni-dei-llm/
- https://www.webdomus.net/benchmark-ai-come-valutarli/
In breve
- llm
- ai
- reasoning
- transformer