TurboQuant: l'algoritmo di Google comprime la memoria KV cache fino a 6x senza perdita di accuratezza
Google Research presenta TurboQuant, algoritmo di compressione che riduce il footprint memoria dei LLM fino a 6x e aumenta la velocità di calcolo degli attenti…
Contenuto

Scopri anche
- Intel presenta le schede grafiche Arc Pro B70 e B65 per l'inferenza AI locale
- Bittensor e l'ecosistema delle subnet AI: dinamica di mercato e sviluppi tecnologici
- Large Language Models: architettura, funzionamento e applicazioni nell'era dell'AI generativa
- L'evoluzione degli LLM: dal testo all'intelligenza agentica, il panorama 2025-2026
- NVIDIA presenta Groq 3 LPU: chip dedicato all'inferenza a bassa latenza
- NVIDIA DLSS 5: il rendering neurale in tempo reale divide la community gaming
- Retrieval-Augmented Generation: architettura e applicazioni
- OpenAI lancia Codex Security: validazione comportamentale invece di report SAST tradizionali
- Nvidia supera le aspettative con 68 miliardi di ricavi trimestrali, ma il mercato reagisce con prudenza
- CIQ lancia Rocky Linux Pro AI con kernel ottimizzato per infrastrutture GPU
- I bias cognitivi nei Large Language Models: un'analisi delle distorsioni strutturali
- Nvidia Groq 3 LPU: architettura eterogenea per l'inferenza AI a bassa latenza
- NVIDIA dona il DRA Driver per GPU al CNCF e potenzia l'orchestrazione Kubernetes per l'AI
- L'IA entra nei programmi dei licei: le nuove indicazioni nazionali
- NVIDIA GTC 2026: La roadmap Vera Rubin, Feynman e l'integrazione di Groq LPUs ridefiniscono l'infrastruttura AI
- L'efficienza energetica dei chip Nvidia: il nuovo imperativo per l'infrastruttura AI
- NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato
- Nvidia presenta il Groq 3 LPU: chip dedicato all'inferenza AI con tecnologia SRAM
- Corea del Sud lancia la "AI Squid Game" per competere con USA e Cina
- Chatbot sanitari e diagnosi: i rischi dell'affidarsi all'intelligenza artificiale per la salute
TurboQuant: Google Research sviluppa un algoritmo di compressione KV cache con riduzione memoria 6x
- Il problema del collo di bottiglia della KV cache
- L'architettura a due stadi di TurboQuant
- Lo stadio QJL per la correzione degli errori
- Risultati sperimentali e benchmark
- Validazione indipendente dalla community
- Limitazioni attuali e gap di implementazione
- Implicazioni per l'hardware e i costi infrastrutturali
- Presentazione accademica e disponibilità
- Implicazioni e scenari
- Cosa monitorare
- Fonti
Google Research ha pubblicato TurboQuant, una suite di algoritmi di compressione progettata per ridurre il footprint memoria dei Large Language Model (LLM) durante l'inferenza. La soluzione promette una compressione della key-value cache fino a 6x e un incremento delle prestazioni nel calcolo degli attention logits fino a 8x su GPU NVIDIA H100, mantenendo inalterata l'accuratezza del modello. L'algoritmo è training-free: può essere applicato a modelli esistenti senza necessità di retraining o fine-tuning.
Il problema del collo di bottiglia della KV cache
⬆ Torna suQuando un LLM elabora testo, ogni token generato deve accedere a strutture dati interne che crescono proporzionalmente alla lunghezza del contesto della conversazione. La key-value cache, introdotta con i transformer decoder-only, permette di riutilizzare chiavi e valori calcolati nei passaggi precedenti, evitando ricalcoli costosi. Tuttavia, questa cache aumenta con ogni turno di conversazione e può espandersi fino a occupare decine di gigabyte nei sistemi più avanzati.
Per contesti lunghi come l'analisi di documenti, revisioni del codice o ricerche multi-step, la KV cache può crescere al punto da spingere fuori dalla memoria lo stesso modello. Su GPU con memoria limitata, questo si manifesta in errori di out-of-memory (OOM). I provider cloud gestiscono il problema con hardware massiccio, ma per chi esegue modelli localmente il vincolo è inevitabile.
La documentazione tecnica indica che per un modello che serve una finestra di contesto da 1 milione di token, la KV cache può consumare più memoria dei pesi del modello stesso. Questo rappresenta il principale collo di bottiglia per l'inferenza a lungo contesto.
L'architettura a due stadi di TurboQuant
⬆ Torna suTurboQuant combina due tecniche matematiche complementari: PolarQuant e Quantized Johnson-Lindenstrauss (QJL). PolarQuant effettua la maggior parte della compressione, mentre QJL funge da strato di correzione degli errori residui.
PolarQuant converte i vettori di embedding dal sistema di coordinate cartesiane standard (X, Y, Z) in coordinate polari. Ogni vettore viene rappresentato come un raggio, che rappresenta la magnitudo, e un insieme di angoli, che rappresenta la direzione. Dopo una rotazione casuale, la distribuzione angolare diventa prevedibile e concentrata. Poiché la "forma" dei dati è nota, il sistema elimina la necessità di memorizzare costanti di normalizzazione per ogni blocco di dati, mappando invece i dati su una griglia circolare fissa.
La quantizzazione tradizionale richiede meta-dati aggiuntivi, le cosiddette costanti di quantizzazione, che indicano al modello come decomprimere i dati. Queste costanti aggiungono un overhead che in alcuni casi annulla i benefici della compressione stessa. PolarQuant elimina questo overhead perché la distribuzione angolare dopo rotazione segue un pattern noto.
Lo stadio QJL per la correzione degli errori
⬆ Torna suIl secondo stadio applica la trasformata Quantized Johnson-Lindenstrauss, che riduce ogni numero di errore residuo a un singolo bit di segno (+1 o -1). QJL agisce come uno stimatore a bias zero: quando il modello calcola l'attention score, ovvero il processo di determinazione di quali parole nel prompt sono più rilevanti, la versione compressa rimane statisticamente identica all'originale ad alta precisione.
La combinazione delle due tecniche permette di comprimere la KV cache fino a 3 bit per valore senza perdita di qualità nelle risposte. Google specifica che la tecnica è data-oblivious: non richiede dati di calibrazione né conoscenza del dataset su cui opera il modello.
Risultati sperimentali e benchmark
⬆ Torna suGoogle ha testato TurboQuant su modelli open-source Gemma, Mistral e Llama-3.1-8B-Instruct attraverso cinque benchmark di lungo contesto: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval. L'algoritmo ha ottenuto punteggi perfetti nei task di retrieval needle-in-a-haystack, dove l'AI deve trovare una singola frase specifica nascosta tra 100.000 parole, mantenendo prestazioni identiche ai modelli non compressi.
Sulla suite LongBench, che copre question answering, generazione di codice e riassunto, TurboQuant ha eguagliato o superato il baseline KIVI in tutti i task. Nei test su GPU NVIDIA H100, l'implementazione a 4 bit ha registrato un aumento di prestazioni 8x nel calcolo degli attention logits rispetto alle chiavi non quantizzate a 32 bit.
Per quanto riguarda la ricerca vettoriale, TurboQuant ha mostrato risultati superiori rispetto a Product Quantization e RabbiQ sul dataset GloVe (d=200), ottenendo i migliori rapporti di recall 1@k. A differenza dei metodi esistenti che richiedono tempo di indicizzazione e tuning specifico per dataset, TurboQuant richiede tempo di preprocessing vicino allo zero.
Validazione indipendente dalla community
⬆ Torna suEntro 24 ore dalla pubblicazione, sviluppatori indipendenti hanno iniziato a implementare TurboQuant partendo dal solo paper accademico. Un implementatore ha creato una versione PyTorch con kernel Triton custom, testandola su un modello Gemma 3 4B con RTX 4090 e ottenendo output identici al baseline non compresso a precisione 2 bit. Un altro ha eseguito l'algoritmo su Apple Silicon tramite MLX con un modello 35B, completando 6 test su 6 needle-in-a-haystack a ogni livello di quantizzazione.
Nella community llama.cpp, almeno tre sviluppatori stanno lavorando su implementazioni C e CUDA, con uno che ha riportato 18 test su 18 superati e rapporti di compressione allineati alle dichiarazioni del paper. Le implementazioni confermerebbero che la matematica è riproducibile e i risultati reggono al di fuori dei benchmark interni di Google.
Limitazioni attuali e gap di implementazione
⬆ Torna suIl paper dimostra l'algoritmo ma non fornisce un framework di inferenza pronto all'uso, kernel CUDA o integrazione con vLLM, TensorRT-LLM o SGLang. La distanza tra "questo algoritmo funziona in un contesto di ricerca" e "puoi installarlo via pip e ottenere risparmi di memoria 6x" si misura in mesi di engineering.
I risultati pubblicati coprono modelli fino a 8 miliardi di parametri. Non è ancora dimostrato se la dichiarazione di "zero perdita di accuratezza" regga su modelli da 70B+ o su architetture mixture-of-experts. Lo speedup 8x misura specificamente il calcolo degli attention logits, non l'inferenza end-to-end: l'attenzione è un collo di bottiglia significativo ma non l'unico, quindi il miglioramento effettivo wall-clock sarà inferiore.
Google Research non ha indicato se TurboQuant sia già in uso in Gemini, Google Search o altri sistemi di produzione. Storicamente, diversi paper di Google descrivono tecniche che non arrivano mai al deployment commerciale.
Implicazioni per l'hardware e i costi infrastrutturali
⬆ Torna suL'annuncio ha generato una reazione nei mercati azionari: le azioni dei produttori di memoria, inclusa Micron Technology, hanno registrato un trend negativo. La reazione riflette una consapevolezza del mercato che se i giganti dell'AI possono comprimere i requisiti di memoria di un fattore sei tramite solo software, la domanda di High Bandwidth Memory (HBM) potrebbe essere temperata dall'efficienza algoritmica.
Per le aziende che utilizzano LLM, l'integrazione di TurboQuant nei server di inferenza potrebbe ridurre il numero di GPU necessarie per servire applicazioni a lungo contesto, con potenziali riduzioni dei costi di compute cloud superiori al 50%. Organizzazioni che lavorano con documentazione interna massiccia potrebbero offrire finestre di contesto più ampie per task RAG senza l'overhead di VRAM che precedentemente rendeva tali funzionalità proibitive.
Presentazione accademica e disponibilità
⬆ Torna suTurboQuant sarà presentato all'International Conference on Learning Representations (ICLR 2026) a Rio de Janeiro, Brasile, con il paper complementare PolarQuant presentato all'Annual Conference on Artificial Intelligence and Statistics (AISTATS 2026) a Tangeri, Marocco. Il paper su QJL è stato precedentemente pubblicato ad AAAI 2025.
Gli algoritmi e i paper di ricerca sono disponibili pubblicamente e gratuitamente, inclusi per uso enterprise. La metodologia è descritta come "eccezionalmente efficiente da implementare" con "overhead runtime trascurabile" secondo la documentazione tecnica.
La domanda rimane se i principali framework open-source di serving integreranno la tecnica. Per ora, TurboQuant rappresenta un avanzamento matematico con impatto potenziale sull'economia dell'inferenza a lungo contesto, ma richiede engineering aggiuntivo prima dell'adozione diffusa nei sistemi di produzione.
Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.
Implicazioni e scenari
⬆ Torna suLa compressione della KV cache senza retraining apre prospettive concrete per l'inferenza su hardware con memoria limitata, ma il passaggio dal paper al deployment richiede engineering sostanziale.
- Scenario 1: Se le implementazioni community in llama.cpp maturano, contesti lunghi oltre 100.000 token potrebbero diventare praticabili su GPU consumer come RTX 4090.
- Scenario 2: L'efficienza software potrebbe temperare la domanda di High Bandwidth Memory, con ricadute sui prezzi e sulle strategie dei produttori di memoria.
- Scenario 3: Enterprise con carichi RAG intensivi potrebbero ridurre significativamente i costi di compute, ma l'assenza di integrazione con vLLM o TensorRT-LLM ritarda l'adozione.
Cosa monitorare
⬆ Torna su- Velocità di convergenza delle implementazioni open-source verso kernel CUDA stabili.
- Validazione dell'assenza di perdita di accuratezza su modelli oltre 8 miliardi di parametri.
- Segnali di adozione da parte di provider cloud o framework di inferenza mainstream.
Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.
Fonti
⬆ Torna su- https://venturebeat.com/infrastructure/googles-new-turboquant-algorithm-speeds-up-ai-memory-8x-cutting-costs-by-50
- https://arstechnica.com/ai/2026/03/google-says-new-turboquant-compression-can-lower-ai-memory-usage-without-sacrificing-quality/
- https://www.starkinsider.com/2026/03/google-turboquant-llm-compression-less-memory.html
- https://officechai.com/ai/google-announces-turboquant-a-new-compression-algorithm-that-reduces-llm-memory-requirements-by-6x-and-increases-speed-by-8x/
- https://www.ilsoftware.it/google-turboquant-promette-ai-piu-veloce-e-leggera-ecco-come/
- https://awesomeagents.ai/news/google-turboquant-kv-cache-compression-6x/
- https://www.tomshardware.com/tech-industry/artificial-intelligence/googles-turboquant-compresses-llm-kv-caches-to-3-bits-with-no-accuracy-loss
In breve
- llm
- inference
- gpu
- embedding