La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente

Lo studio CERT-AgID rivela come il refusal nei modelli linguistici abbia una forma geometrica interpretabile. Tecniche di activation steering e explainable AI…

Contenuto

La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente

Scopri anche

Intelligenza artificiale: storia, modelli generativi e confronto sull'affidabilità
MiniMax M2: architettura MoE, benchmark competitivi e la sfida cinese ai modelli occidentali
LLM e memoria persistente: come Google e OpenAI stanno risolvendo il problema del contesto
Omogeneizzazione del pensiero e specchio cognitivo: l'IA mette alla prova la mente umana
L'intelligenza artificiale nel mercato del lavoro: adozione aziendale, competenze e governance
Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani
I modelli linguistici di grandi dimensioni: architettura, funzionamento e limitazioni
Intelligenza artificiale e ragionamento: paradigmi a confronto e impatti cognitivi
I Large Language Models: architettura, funzionamento e implicazioni
I limiti dell'intelligenza artificiale: allucinazioni, sicofantia e comportamenti emergenti nei modelli linguistici
Musk conferma: Tesla e SpaceX AI continueranno ad acquistare chip NVIDIA su larga scala
Tecniche di addestramento e ottimizzazione degli LLM: dati, distillazione e quantizzazione
LinkedIn rinnova l'algoritmo del feed con modelli LLM e infrastruttura GPU
Tencent conferma il primato mondiale nel gaming: ricavi in crescita e investimenti nell'IA
Google rilascia Gemini 3.1 Pro: il salto nel ragionamento che raddoppia le prestazioni
Ottimizzazione dell'inferenza AI: vLLM, PagedAttention e nuovi paradigmi per i Large Language Models
Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM
Il conflitto tra etica e potere nell'era dell'intelligenza artificiale
Google presenta Gemini 3: il nuovo modello LLM con ragionamento avanzato e capacità agentiche
Large Language Models: architettura, funzionamento e applicazioni nell'era dell'AI generativa

La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente

In questo articolo:

Un modello linguistico non rifiuta soltanto una richiesta: prende posizione in uno spazio invisibile. Tra regioni latenti e direzioni sottili, il confine tra lecito e proibito si rivela meno rigido del previsto. Intervenire su quella geometria non significa forzare risposte, ma piegare traiettorie, mantenendo un equilibrio tra controllo, coerenza e deriva. È questa la conclusione dello studio pubblicato dal CERT-AgID a marzo 2026, che analizza i meccanismi con cui i sistemi di intelligenza artificiale decidono di rifiutare le richieste degli utenti, un comportamento noto come refusal.

Contenuto

Scopri anche

La geometria del rifiuto nei LLM: come controllare il comportamento nello spazio latente

Lo spazio latente come mappa interna del modello

Il principio dell'activation steering

La pipeline sperimentale e i risultati

Confronto tra metodi di steering

La trasparenza come requisito normativo

Tecniche di attribuzione per l'interpretabilità

Implicazioni per la Pubblica Amministrazione

Bias e limitazioni strutturali degli LLM

Il problema dell'opacità decisionale

Benchmark per la valutazione degli LLM

Preferenze valoriali nei modelli

Efficienza dell'addestramento

Limitazioni dello studio e sviluppi futuri

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili