I modelli linguistici di grandi dimensioni: architettura, funzionamento e limitazioni

Un'analisi tecnica dei Large Language Model: dalla loro struttura basata su transformer alle sfide legate a bias, pregiudizi e accuratezza fattuale.

Contenuto

I modelli linguistici di grandi dimensioni: architettura, funzionamento e limitazioni

Scopri anche

I modelli linguistici di grandi dimensioni: architettura, funzionamento e limitazioni

I modelli linguistici di grandi dimensioni: architettura, funzionamento e limitazioni

In questo articolo:

Un modello linguistico di grandi dimensioni, noto anche con l'acronimo inglese LLM (Large Language Model), è un tipo di modello linguistico caratterizzato dalla capacità di ottenere la comprensione e la generazione di linguaggio di ambito generale. Questa abilità deriva dall'utilizzo di enormi quantità di dati per apprendere miliardi di parametri durante la fase di addestramento e dal consumo di grandi risorse di calcolo nell'operatività. L'aggettivo "grande" presente nel nome fa riferimento all'ingente quantità di parametri del modello probabilistico, nell'ordine dei miliardi.

Gli LLM sono in larga parte reti neurali artificiali e, in particolare, trasformatori, addestrati usando tecniche di apprendimento autosupervisionato o semi-supervisionato. In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi. Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso, detto prompt, con un processo di ingegnerizzazione dello stesso chiamato prompt engineering.

Struttura tecnica e acquisizione della conoscenza

⬆ Torna su

Secondo la documentazione disponibile, si ritiene che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e dell'ontologia intrinseche nei corpi linguistici usati nell'addestramento. Al contempo, tuttavia, assimilano anche imprecisioni o pregiudizi eventualmente presenti negli stessi testi. Al 2025 i modelli sono stati addestrati su 15 milioni di token aperti (parti di parole), che corrispondono in pratica a tutto ciò che è disponibile online di qualità accettabile.

Esempi noti di modelli linguistici grandi comprendono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMA di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic. Se il vantaggio competitivo è nelle mani di coloro che investono più miliardi di dollari, con un maggior numero di dati e una più alta potenza di calcolo, i modelli fondativi (modelli multimodali in cui viene appresa anche la correlazione tra modalità diverse come immagine e testo) rappresentano una frontiera in parte ancora inesplorata.

Bias e pregiudizi nei modelli linguistici

⬆ Torna su

Le principali sfide attuali di questi grandi modelli comprendono errori fattuali, pregiudizi linguistici, pregiudizi di genere, pregiudizi razziali, pregiudizi politici, deplezione cognitiva e questioni etiche. Bias e limitazioni del modello linguistico sono oggetto di ricerche in corso nel campo dell'elaborazione del linguaggio naturale (NLP). Sebbene i modelli linguistici abbiano mostrato notevoli capacità nel generare testo simile a quello umano, sono suscettibili di ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento.

Il bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query che porta a una deviazione sistematica nel campionamento delle informazioni. Gli attuali modelli linguistici di grandi dimensioni, poiché sono formati prevalentemente su dati in lingua inglese, spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi come irrilevanti, sbagliate o rumorose. Interrogato su ideologie politiche come "Cos'è il liberalismo?", ChatGPT descrive il liberalismo dalla prospettiva anglo-americana, enfatizzando aspetti dei diritti umani e dell'uguaglianza, mentre aspetti come l'opposizione all'intervento dello stato nella vita personale ed economica dal punto di vista dominante vietnamita o la limitazione del potere governativo dal punto di vista prevalente cinese risultano assenti.

Pregiudizi di genere e stereotipi

⬆ Torna su

Il pregiudizio di genere si riferisce alla tendenza di questi modelli a produrre risultati ingiustamente pregiudizievoli verso un genere rispetto all'altro. Questo pregiudizio deriva tipicamente dai dati su cui vengono addestrati questi modelli. I modelli linguistici di grandi dimensioni spesso assegnano ruoli e caratteristiche in base alle norme di genere tradizionali: potrebbero associare infermieri o segretari prevalentemente a donne e ingegneri o amministratori delegati a uomini.

Al di là del genere e della razza, questi modelli possono rafforzare un'ampia gamma di stereotipi, compresi quelli basati sull'età, sulla nazionalità, sulla religione o sull'occupazione. Ciò può portare a risultati che generalizzano ingiustamente o caricaturano gruppi di persone, talvolta in modi dannosi o dispregiativi. Il pregiudizio politico si riferisce alla tendenza degli algoritmi a favorire sistematicamente determinati punti di vista, ideologie o risultati politici rispetto ad altri. Poiché i dati di formazione includono un'ampia gamma di opinioni e coperture politiche, i modelli potrebbero generare risposte che si orientano verso particolari ideologie a seconda della prevalenza di tali opinioni nei dati.

Impatti sul web e sulla produzione di contenuti

⬆ Torna su

Gli LLM fanno venire meno il patto implicito fondativo del web, vale a dire lo scambio tra visibilità e contenuti di valore, dal momento che i modelli non citano le fonti, riducendo in questo modo la produzione di contenuti di qualità per avere un ranking elevato nei motori di ricerca. Numerosi siti di notizie americani, social media e provider hanno bloccato l'accesso ai crawler dell'intelligenza artificiale.

Lo studio e la mitigazione di questi pregiudizi e limitazioni sono oggetto di ricerca per lo sviluppo etico e l'applicazione dell'IA in diversi ambiti sociali e professionali. La questione riguarda non solo l'accuratezza delle risposte, ma anche le implicazioni per l'ecosistema informativo digitale nel suo complesso.

La linguistica computazionale e i modelli interpretativi

⬆ Torna su

La scienza alla base degli sviluppi tecnologici legati alla lingua è la linguistica computazionale, il cui obiettivo è sviluppare modelli di conoscenza linguistica sufficientemente precisi per poter essere elaborati da un computer. Gli assistenti vocali come Alexa, Siri e Cortana risolvono problemi linguistici interpretando frasi ambigue attraverso modelli che rappresentano la conoscenza linguistica e permettono di fare predizioni.

La creazione del modello può avvenire in due modi: attraverso regole esplicite, quando si conosce la regola che sottende a un particolare fenomeno linguistico, oppure fornendo una grande quantità di dati che descrivono il comportamento linguistico dei parlanti e un metodo per estrarre pattern significativi senza formalizzare istruzioni esplicite. L'approccio basato sui dati, sebbene meno trasparente nel processo decisionale, permette di gestire la creatività e l'innovazione costante che caratterizza l'uso della lingua.

Limiti nella comprensione del linguaggio

⬆ Torna su

Nonostante gli enormi progressi, bisogna essere cauti nell'aspettarsi prestazioni complete dalle tecnologie linguistiche. La linguistica computazionale è una scienza relativamente giovane, nata dopo il secondo dopoguerra, e molti aspetti della comunicazione linguistica umana si basano sulla conoscenza del mondo, sul non detto e sull'interazione di diversi piani comunicativi che non sono riproducibili automaticamente. Cogliere e tradurre espressioni idiomatiche per un computer risulta difficile, come è difficile capire che un commento è ironico o che un termine è usato metaforicamente.

La tecnologia linguistica può e deve essere vista come un sostegno e non un sostituto alle attività quotidiane, e anche come strumento nella ricerca in campo linguistico e in tutti i campi che si occupano di analizzare su larga scala la comunicazione linguistica. L'Associazione Italiana di Linguistica Computazionale (AILC) è l'ente che promuove la ricerca e le attività divulgative legate alla linguistica computazionale in Italia.

La rivoluzione digitale della testualità

⬆ Torna su

L'avvento delle tecnologie digitali ha investito ambiti consolidati della tradizione, rappresentando, dopo la rivoluzione tipografica, una nuova torsione delle modalità di creazione e fruizione dei testi. La digitalizzazione di massa, le nuove dinamiche di lettura, l'obsolescenza dei supporti digitali e le nuove forme di didattica e ricerca collaborativa sono temi centrali nel dibattito accademico contemporaneo.

Le questioni di fondo che pone la filologia conservano tutta la loro importanza anche nell'era digitale: la volontà d'autore, la conservazione dei documenti, le modalità di pubblicazione restano al centro di un dibattito particolarmente vivace. La maggior parte dei testi digitali ha una natura differente: dagli anni Novanta, molte biblioteche e archivi digitali sono stati popolati con testi "digitalizzati", risultanti da scansione OCR, che rappresentano i testi digitali più scaricati e letti sul Web.

Obsolescenza digitale e conservazione

⬆ Torna su

Un aspetto critico riguarda la letteratura "born digital": autori hanno iniziato a usare software di videoscrittura ormai da circa cinquant'anni, ma la ricerca sul recupero e l'analisi "forense" del record digitale non è sviluppata come dovrebbe. L'obsolescenza digitale, l'indifferenza delle persone e la mancanza di strutture istituzionali per la biblioteconomia digitale minacciano la letteratura born digital. Gli stessi autori sembrano spesso inconsapevoli dell'importanza della preservazione e della curatela dei loro file di bozza originali.

La diffusione degli strumenti elettronici per la scrittura, la lettura e la comunicazione ha portato a una vera e propria "esplosione testuale": oggi i testi vengono scritti, scambiati, stampati e letti su carta e su schermi di diverse dimensioni. Il rapporto con il testo si è modificato profondamente con i supporti digitali, sollevando interrogativi sulle caratteristiche specifiche della testualità digitale e sulle sue forme di organizzazione strutturale.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La diffusione capillare di queste tecnologie genera effetti a cascata sull'ecosistema informativo e sulle dinamiche competitive del settore. Le implicazioni toccano sia i produttori di contenuti sia gli sviluppatori, con conseguenze potenzialmente durature.

  • Scenario 1: concentrazione del vantaggio competitivo nelle mani di pochi attori con ingenti risorse di calcolo e accesso privilegiato ai dati, riducendo lo spazio per innovatori indipendenti.
  • Scenario 2: deplezione progressiva dell'ecosistema web, con editori e creatori che potrebbero limitare l'accesso ai propri archivi per proteggere la visibilità e le fonti di reddito.
  • Scenario 3: evoluzione verso approcci ibridi che combinano metodi statistici e regole esplicite per mitigare bias e migliorare l'affidabilità delle risposte.

Cosa monitorare

⬆ Torna su
  • L'efficacia delle tecniche di mitigazione dei pregiudizi linguistici, di genere e politici nell'addestramento.
  • Le reazioni dei publisher e delle piattaforme al problema della mancata attribuzione delle fonti.
  • Gli sviluppi nella linguistica computazionale per superare i limiti nella comprensione di ironia e metafore.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • llm
  • transformer
  • chatgpt
  • data

Link utili

Apri l'articolo su DeafNews