I Large Language Models: architettura, funzionamento e implicazioni

Analisi tecnica dei Large Language Models: dall'architettura Transformer ai meccanismi di attenzione, dal pre-training alle applicazioni, con focus su bias, si…

Contenuto

I Large Language Models: architettura, funzionamento e implicazioni

Scopri anche

I Large Language Models: architettura, funzionamento e implicazioni

I Large Language Models: architettura, funzionamento e implicazioni

In questo articolo:

I Large Language Models (LLM) rappresentano una categoria di modelli di deep learning preaddestrati su grandi quantità di dati, caratterizzati dalla capacità di comprendere e generare linguaggio di ambito generale. L'aggettivo "grande" si riferisce all'ingente quantità di parametri del modello probabilistico, nell'ordine dei miliardi. Gli LLM sono in larga parte reti neurali artificiali basate su architetture Transformer e vengono addestrati utilizzando tecniche di apprendimento autosupervisionato o semi-supervisionato.

In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi. Esempi noti includono i modelli GPT di OpenAI (GPT-3, GPT-3.5, GPT-4, utilizzati in ChatGPT), PaLM di Google (usato in Gemini), LLaMA di Meta, Claude di Anthropic e BLOOM. La storia degli LLM affonda le radici negli anni '60 con i primi modelli di linguaggio sviluppati al MIT, ma il punto di svolta si è verificato nel 2017 con l'introduzione dell'architettura Transformer da parte di Vaswani et al. nell'articolo "Attention Is All You Need".

L'architettura Transformer

⬆ Torna su

L'architettura Transformer ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP), sostituendo gli approcci precedenti basati su reti neurali ricorrenti (RNN) o convoluzionali (CNN). A differenza delle RNN, che elaboravano in sequenza gli input, i Transformer elaborano intere sequenze in parallelo, consentendo ai data scientist di utilizzare le GPU per fornire training a LLM basati su trasformatori con una significativa riduzione dei tempi.

Il Transformer si articola in due componenti principali: l'encoder e il decoder. L'encoder analizza l'input e lo trasforma in una rappresentazione vettoriale, estraendo informazioni semantiche e contestuali. Il decoder lavora su questa rappresentazione per produrre l'output desiderato. Modelli come BERT sono basati esclusivamente sull'encoder, mentre i modelli GPT sono autoregressivi e si basano unicamente sul decoder.

Il cuore pulsante dei Transformer è il meccanismo di auto-attenzione multi-testa (Multi-Head Self-Attention), che permette di identificare e ponderare le relazioni tra ogni elemento di una sequenza di input. Questo meccanismo opera creando tre tipi di vettori per ogni token: Query (le informazioni che un token sta "cercando"), Key (le informazioni contenute in ciascun token) e Value (le informazioni restituite, ponderate in base ai pesi di attenzione). La caratteristica multi-head replica questo processo più volte in parallelo, permettendo al modello di catturare diverse sfaccettature delle relazioni semantiche.

Un'altra componente cruciale è la codifica posizionale (Positional Encoding). Poiché i Transformer elaborano le sequenze in parallelo, non possiedono una conoscenza intrinseca dell'ordine delle parole. Per compensare, viene aggiunta un'informazione posizionale all'embedding di ogni token prima dell'elaborazione. Algoritmi avanzati come il Rotary Positional Encoding (RoPE) hanno ulteriormente migliorato la capacità di codificare efficacemente le informazioni posizionali anche per sequenze estremamente lunghe.

Tokenizzazione e embedding

⬆ Torna su

La tokenizzazione è il processo di suddivisione del testo in unità più piccole denominate token, che possono essere parole intere, parti di parole (subword) o singoli caratteri. Quando un utente inserisce un prompt, la prima operazione consiste nel convertire il testo in token, ciascuno associato a un numero intero unico all'interno del vocabolario del modello. I metodi comuni includono il Byte-Pair Encoding (BPE). La dimensione dei token ha un impatto diretto sui requisiti computazionali e sulla lunghezza massima della finestra di contesto.

Una volta tokenizzato, il testo viene trasformato in embedding: rappresentazioni vettoriali numeriche che catturano il significato semantico e collocano le parole in uno spazio multidimensionale. A differenza delle codifiche one-hot, gli embedding mappano le parole a vettori densi in uno spazio a dimensionalità inferiore. Una caratteristica distintiva degli embedding generati dagli LLM moderni è la loro contestualità: la stessa parola avrà embedding diversi a seconda del contesto in cui appare.

Pre-training e fine-tuning

⬆ Torna su

Il pre-training costituisce la fase iniziale e più intensiva dal punto di vista computazionale. Durante questa fase, il modello viene esposto a un corpus di dati testuali estremamente vasto, spesso composto da miliardi o trilioni di token, in modalità non supervisionata. Le fonti comuni includono libri, articoli accademici, siti web, piattaforme di social media e repository di codice. L'obiettivo primario è la previsione del token successivo (Next-Token Prediction).

I costi associati al pre-training sono eccezionalmente elevati, potendo raggiungere milioni o centinaia di milioni di dollari per i modelli di punta. Al 2025, i modelli sono stati addestrati su circa 15 milioni di token aperti, che corrispondono praticamente a tutto ciò che è disponibile online di qualità accettabile. Il cuore del pre-training è il masked language modeling, una tecnica dove il modello riceve frasi parzialmente oscurate e deve predire le parole mancanti.

Dopo il pre-training, un LLM possiede competenze generiche ma non conosce i dettagli di domini specifici. Il fine-tuning è il processo attraverso cui il modello viene ulteriormente addestrato su dataset più piccoli e mirati per specializzarlo in compiti precisi: rispondere a domande, scrivere codice, tradurre testi. Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello. Per modelli più grandi come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (prompt engineering).

Applicazioni e casi d'uso

⬆ Torna su

Gli LLM sono modelli flessibili capaci di eseguire attività diverse: rispondere a domande, riassumere documenti, tradurre lingue, completare frasi, generare codice. Nel campo della programmazione, esempi come Amazon CodeWhisperer e il codex di OpenAI utilizzato in GitHub Copilot possono codificare in Python, JavaScript, Ruby e altri linguaggi. Nel settore legale, gli LLM possono analizzare la giurisprudenza e redigere documenti, anche se sono stati documentati casi di "allucinazioni" con citazioni giurisprudenziali inesistenti.

Nelle PMI e nelle pubbliche amministrazioni, i Transformer possono ottimizzare workflow, automatizzare attività ripetitive e fornire soluzioni personalizzate. Nel settore della formazione digitale, gli LLM supportano l'apprendimento personalizzato attraverso l'analisi del linguaggio naturale, generando contenuti didattici adattivi e fornendo feedback in tempo reale.

Bias, limitazioni e questioni etiche

⬆ Torna su

Gli LLM acquisiscono implicitamente la conoscenza della sintassi, della semantica e dell'ontologia intrinseche nei corpi linguistici usati nell'addestramento, ma al contempo anche imprecisioni o pregiudizi eventualmente presenti nei testi. Le principali sfide comprendono errori fattuali, pregiudizi linguistici, di genere, razziali e politici, deplezione cognitiva e questioni etiche.

Il bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query. Poiché gli LLM sono formati prevalentemente su dati in lingua inglese, spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi. Il pregiudizio di genere si manifesta nella tendenza a produrre risultati ingiustamente pregiudizievoli verso un genere, assegnando ruoli e caratteristiche in base alle norme tradizionali.

Gli LLM fanno venire meno il patto implicito fondativo del web, ovvero lo scambio tra visibilità e contenuti di valore, dal momento che i modelli non citano le fonti, riducendo la produzione di contenuti di qualità. Numerosi siti di notizie americani, social media e provider hanno bloccato l'accesso ai crawler dell'intelligenza artificiale.

Il dibattito sull'intelligenza

⬆ Torna su

Il dibattito sull'intelligenza degli LLM divide esperti e filosofi. Da un lato vi sono i cosiddetti "next-tokenisti" o "parrottisti", che sostengono che questi modelli si limitano a indovinare la parola successiva senza alcuna reale intelligenza. Dall'altro, chi sostiene che i meccanismi degli LLM riproducano forme genuine di elaborazione intelligente del linguaggio e della conoscenza.

Il confronto corretto dovrebbe confrontare i meccanismi di base dell'LLM con quelli dell'umano, o i comportamenti globali. Il singolo neurone non è più intelligente, intenzionale, cosciente o mentale del singolo tensore di una LLM. L'etimologia del termine "intelligenza" deriva da "leggere tra", ovvero cogliere le relazioni tra i termini del linguaggio. Il meccanismo multi-head applicato all'attenzione su scale multiple estrae dal linguaggio la struttura causale-condizionale, che costituisce il livello semiotico dell'intelligenza.

Sicurezza e cybersecurity

⬆ Torna su

I cybercriminali possono sfruttare gli LLM per condurre attacchi sofisticati. Le principali aree di applicazione malevola includono campagne di phishing altamente personalizzate, scrittura di codice exploit e generazione di varianti di malware polimorfico, creazione di deepfake audio e video, generazione di contenuti falsi su larga scala, e attacchi adversarial per eludere i sistemi di rilevamento automatico.

Gli LLM possono tuttavia rappresentare una risorsa per la difesa: analisi di log per identificare comportamenti sospetti, risposta automatica agli incidenti di sicurezza, simulazione di attacchi per l'addestramento del personale, analisi di fonti di intelligence per prevedere nuove minacce, e controllo del codice in tempo reale durante lo sviluppo per identificare vulnerabilità.

L'AI Act europeo

⬆ Torna su

L'AI Act dell'Unione Europea mira a creare un quadro normativo che garantisca l'uso sicuro, trasparente e conforme dell'AI. Le applicazioni di AI sono classificate in base al livello di rischio: minimo, limitato, alto e inaccettabile. Per gli LLM, il livello di rischio dipende dall'uso specifico: un LLM per risposte automatiche in chat aziendali potrebbe essere a rischio limitato, mentre uno per valutazioni mediche o giuridiche rientrerebbe in una categoria a rischio elevato.

Secondo l'AI Act, le applicazioni ad alto rischio devono soddisfare requisiti di trasparenza, sicurezza e robustezza. I fornitori di LLM devono garantire la tracciabilità dei dati di addestramento, la minimizzazione dei bias e la capacità di spiegare le decisioni prese dal modello. La supervisione umana rimane un pilastro fondamentale per l'uso degli LLM.

Prospettive future

⬆ Torna su

Le ricerche future si concentrano su tre direzioni: ottimizzazione dell'efficienza computazionale, integrazione multimodale e personalizzazione etica. Si stanno esplorando architetture più leggere (sparse Transformers) per ridurre il consumo di risorse, mentre l'attenzione si sposta verso modelli capaci di elaborare simultaneamente testo, immagini e audio. Il filone dell'explainability cerca metodi per rendere i processi decisionali più trasparenti e interpretabili, requisito fondamentale per applicazioni in ambiti regolamentati.

Alcuni sviluppatori hanno iniziato ad addestrare modelli utilizzando input video e audio, aprendo nuove possibilità per veicoli autonomi. I modelli fondativi multimodali rappresentano una frontiera in parte ancora inesplorata, dove i modelli apprendono per tentativi ed errori attraverso feedback. Se il vantaggio competitivo è nelle mani di chi investe più miliardi di dollari con più dati e maggiore potenza di calcolo, la sostenibilità economica e ambientale dello sviluppo degli LLM rimane una questione aperta.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'evoluzione delle tecnologie linguistiche solleva interrogativi circa la sostenibilità del paradigma attuale e l'impatto socio-economico delle loro applicazioni diffuse.

  • Scenario 1: L'esaurimento dei dati di qualità disponibili per il pre-training potrebbe spingere verso architetture più efficienti o metodologie di addestramento alternative, riducendo la dipendenza da corpus testuali sempre più vasti.
  • Scenario 2: La proliferazione di casi di allucinazioni in contesti professionali come quello legale potrebbe rallentare l'adozione aziendale fino a quando non emergeranno soluzioni affidabili per la verifica delle informazioni generate.
  • Scenario 3: Il blocco dei crawler da parte di editori e piattaforme potrebbe frammentare l'ecosistema dei dati di addestramento, incentivando accordi commerciali per l'accesso a contenuti protetti.

Cosa monitorare

⬆ Torna su
  • Sviluppi nelle tecniche di mitigazione dei bias linguistici e di genere.
  • Evoluzione del quadro normativo sulla proprietà intellettuale dei contenuti.
  • Progressi nella riduzione delle allucinazioni e nella verifica automatizzata delle citazioni.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • llm
  • transformer
  • ai
  • machinelearning

Link utili

Apri l'articolo su DeafNews