ChatGPT: come funziona realmente e perché gli utenti ne percepiscono i limiti

Un'analisi tecnica del funzionamento di ChatGPT e degli LLM: dalla previsione probabilistica alle allucinazioni, dal router di GPT-5 agli studi sull'impatto co…

Contenuto

ChatGPT: come funziona realmente e perché gli utenti ne percepiscono i limiti

Scopri anche

ChatGPT: come funziona realmente e perché gli utenti ne percepiscono i limiti

ChatGPT: come funziona realmente e perché gli utenti ne percepiscono i limiti

In questo articolo:

ChatGPT ha raggiunto 100 milioni di utenti in soli due mesi dal lancio, diventando l'applicazione software per consumatori con la crescita più rapida nella storia. A settembre 2024 ha registrato 800 milioni di utenti settimanali e circa 3 miliardi di messaggi al giorno. Tuttavia, dietro questi numeri si nasconde una realtà più complessa: il funzionamento tecnico dei Large Language Model (LLM) presenta limiti strutturali che molti utenti non comprendono appieno, e le recenti versioni hanno introdotto problemi legati all'architettura di routing che hanno acceso discussioni sulla qualità delle risposte.

Come ragionano realmente gli LLM: previsione, non pensiero

⬆ Torna su

La prima distinzione fondamentale da comprendere è che gli LLM non ragionano nel senso umano del termine. I modelli linguistici di grandi dimensioni funzionano per correlazioni statistiche, non per inferenze causali. Quando un utente pone una domanda a ChatGPT, il modello non attinge a una conoscenza interna né segue un albero decisionale: calcola semplicemente quale sequenza di parole massimizzi la probabilità di essere pertinente, utile e coerente rispetto al contesto.

Questo ha conseguenze dirette sulla comprensione delle risposte. Quando si chiede a ChatGPT "perché hai risposto in questo modo?", il modello non ripercorre un processo mentale interno — perché tale processo non esiste. Genera invece una spiegazione a posteriori che suona plausibile, coerente, ordinata. Gli esperti chiamano questo fenomeno "post-hoc rationalization": una narrazione costruita dopo la risposta, non una traccia del ragionamento effettivo.

L'addestramento tramite RLHF (Reinforcement Learning from Human Feedback) ha un effetto collaterale rilevante: rende i modelli compiacenti. Tendono a evitare il conflitto, ad assecondare la premessa della domanda, a costruire risposte che soddisfano le aspettative dell'utente e a sembrare certi anche quando non lo sono. Un modello probabilistico può amplificare la creatività, ma non guidare decisioni strategiche basate su dati verificabili.

Il problema dei token e il conteggio delle lettere

⬆ Torna su

Un esempio concreto dei limiti degli LLM riguarda un compito apparentemente semplice: contare le lettere in una parola. Se si chiede a ChatGPT 4o (la versione senza reasoning) quante "r" ci sono in "ramarro" e in che posizione si trovano, la risposta è spesso errata. Il motivo è tecnico: gli LLM non processano singole lettere, ma porzioni di testo chiamate token. Si possono immaginare come "sillabe" che vengono ingrandite o rimpicciolite in base alla precisione richiesta e alla potenza di calcolo disponibile.

Senza reasoning, il modello non sa quali lettere sono contenute in ogni token. Quando invece si attiva il reasoning (versioni come ChatGPT o1 o DeepSeek R1), viene utilizzata una metodologia chiamata Chain of Thought (CoT). Il modello divide la domanda in sottoblocchi prima di iniziare a processare per token e, nel caso del conteggio lettere, può riconoscere che si tratta di una richiesta che richiede un approccio diverso e utilizzare codice specifico per eseguire il conteggio.

Tuttavia, anche i modelli di reasoning possono essere "ingannati". Un esperimento con DeepSeek R1 ha mostrato che, di fronte all'indovinello classico della lampadina e dei tre interruttori, il modello ha risposto correttamente. Ma quando lo stesso indovinello è stato presentato con una variante (la stanza è di vetro), il modello ha fornito la soluzione classica, ignorando che la trasparenza del vetro avrebbe reso l'indovinolo banale. Questo dimostra che il modello sta "frugando nei cassetti" di ciò che ha imparato durante l'addestramento, cercando la risposta più plausibile, senza valutare tutte le informazioni nel contesto.

Le allucinazioni e i dati di training

⬆ Torna su

Il termine "allucinazione" indica risposte plausibili ma errate o prive di senso. Un'analisi del 2023 ha stimato che ChatGPT allucina circa il 3% delle volte. Il fenomeno è distinto dal significato psicologico del termine e assomiglia più a una confabulazione. I dati di training coprono solo un periodo fino a una certa data di cut-off, quindi il modello non ha conoscenza di eventi recenti. OpenAI ha talvolta mitigato questo limite aggiornando i dati, ma la ricerca sul web non garantisce l'accuratezza delle risposte, poiché il modello può accedere a siti inaffidabili o fuorvianti.

I bias nei dati di addestramento si riflettono nelle risposte. In un caso documentato, ChatGPT ha generato un testo in cui donne e scienziati di colore venivano presentati come inferiori agli scienziati bianchi maschi. Il modello di ricompensa, progettato attorno al controllo umano, può essere sovra-ottimizzato e ostacolare le performance — un esempio di una patologia dell'ottimizzazione nota come legge di Goodhart.

La documentazione tecnica riporta che i GPT-based moderation classifiers vengono utilizzati per ridurre il rischio di output dannosi. Tuttavia, gli utenti possono aggirare queste restrizioni tramite prompt engineering. Una tecnica popolarizzata su Reddit nel 2023 ha coinvolto il personaggio "DAN" (Do Anything Now): si istruiva il chatbot a rispondere a domande che sarebbero state altrimenti respinte dalla policy sui contenuti.

Il router di GPT-5 e le lamente degli utenti

⬆ Torna su

Dal lancio di GPT-5, migliaia di utenti hanno segnalato risposte più brevi, meno precise, talvolta francamente sbagliate. Un thread Reddit intitolato "GPT-5 è orribile" ha raccolto migliaia di interazioni. La causa principale non è un peggioramento del modello, ma l'architettura del router.

GPT-5 non è tecnicamente un modello unico: è una rete di modelli diversi, alcuni più potenti, altri più economici, coordinati da un sistema automatico che decide momento per momento quale utilizzare. Quando l'utente pone una domanda, il router ne valuta la complessità: se semplice, instrada verso un modello veloce ed economico; se complessa, verso un modello più potente. In teoria questo risparmia risorse e garantisce accesso ai modelli migliori quando necessario. In pratica, quando il router fa scelte sbagliate — o si rompe — il risultato è caotico.

Ethan Mollick ha spiegato che, a meno di pagare l'abbonamento e cambiare modello manualmente, con GPT-5 si ottiene a volte il miglior modello disponibile e a volte uno dei peggiori, persino nel mezzo della stessa conversazione. Jiaxuan You, docente di informatica all'Università dell'Illinois, ha precisato che il router a volte invia parti della stessa domanda a modelli diversi: un modello economico dà una risposta, uno più potente ne dà un'altra, e quando il sistema le combina emergono contraddizioni.

La ragione strategica del router è gestire un carico enorme: 800 milioni di utenti settimanali, 3 miliardi di messaggi al giorno. Ogni interazione con GPT-5 consuma risorse considerevoli, specialmente quando il modello "pensa" a lungo. OpenAI ha firmato contratti miliardari — con Oracle per 4,5 gigawatt di capacità nei data center e con CoreWeave per 11,9 miliardi in cinque anni — ma costruire infrastrutture richiede tempo. La domanda cresce più velocemente dell'offerta.

Lo studio del MIT sull'impegno cognitivo

⬆ Torna su

Una ricerca del MIT Media Lab intitolata "Our Brain on ChatGPT" ha esaminato come cambia l'impegno cognitivo durante la scrittura di testi con il supporto di modelli linguistici. I ricercatori hanno selezionato 54 partecipanti tra i 18 e i 39 anni, suddividendoli in tre gruppi: chi ha scritto saggi usando solo il cervello ("brain-only"), chi ha usato ChatGPT e chi ha usato motori di ricerca.

Durante la scrittura, l'elettroencefalografia (EEG) ha monitorato in tempo reale 32 aree cerebrali. I risultati pubblicizzati indicano che il gruppo "brain-only" ha mostrato maggiore attivazione cerebrale e connettività neuronale, mentre il gruppo AI ha mostrato minore attivazione. Gli autori hanno introdotto l'ipotesi della "cognitive debt": un calo progressivo nella capacità di attivare risorse cognitive dopo un uso prolungato dell'AI generativa.

Le conclusioni, tuttavia, vanno interpretate con cautela. Solo 18 partecipanti hanno completato la quarta prova (sei per gruppo), e i risultati possono avere spiegazioni alternative. Il gruppo "brain-only" aveva già svolto l'esercizio tre volte, imparando a gestirlo con maggiore efficienza. Il gruppo "AI" ha affrontato la prova finale senza supporto per la prima volta, quindi era prevedibile un livello di attivazione cerebrale inferiore. Inoltre, l'EEG misura l'attività elettrica del cervello attraverso bande di frequenza associate a funzioni come attenzione e memoria, ma la sola attività cerebrale non equivale automaticamente ad apprendimento profondo.

L'economista Tyler Cowen ha osservato che esercizi di mera memorizzazione attivano fortemente l'EEG senza costituire progresso nel pensiero critico. Un aspetto centrale non misurato dallo studio è cosa fanno i partecipanti con il tempo risparmiato usando l'AI: se un LLM permette di completare un compito in meno tempo, come viene riutilizzato quel tempo libero? Questa "riallocazione cognitiva" è esclusa dall'esperimento.

L'uso emotivo di ChatGPT e i rischi psicologici

⬆ Torna su

Le ricerche su Google legate all'AI e al suo possibile "ruolo psicologico" sono aumentate esponenzialmente. Le persone digitano domande come "ChatGPT prova ansia?" e "Cosa non chiedere mai a ChatGPT?". Un articolo di Harvard Business Review ha documentato come molti utenti, in particolare della GenZ, utilizzino l'AI non più per trovare idee, ma come terapia e compagnia.

ChatGPT, Replika (con oltre 25 milioni di utenti) e Character AI stanno trasformando l'AI da strumento operativo a presenza sociale. Rispondono con un tono che si adatta al modo di scrivere dell'utente, apprendono il linguaggio, ricordano le conversazioni precedenti. In alcuni casi creano un'illusione di familiarità e accoglienza. Chi si confida con un chatbot raramente cerca diagnosi: cerca ascolto, chiarezza, uno spazio neutrale privo di giudizio.

OpenAI ha reso noto che circa lo 0,07% degli utenti settimanali di ChatGPT mostra segnali di possibile psicosi o mania, mentre lo 0,15% sembra dipendere in modo eccessivo dal chatbot sul piano emotivo. L'azienda ha coinvolto oltre 170 esperti di salute mentale per rendere GPT-5 più sicuro, precisando che si tratta di casi difficili da individuare con precisione e che alcuni utenti potrebbero rientrare in categorie a rischio legate a mania, psicosi e ideazione suicidaria.

I filosofi Weijers e Munn hanno descritto il rischio del "vuoto morale": quando si delegano elementi relazionali e morali a entità algoritmiche, si può perdere lo spazio in cui si decide, valuta e comprende. Le relazioni con un chatbot sono prive di reciprocità autentica, ascolto e cura reciproca. In casi estremi documentati, un quattordicenne americano si è tolto la vita dopo essersi confidato per settimane con un chatbot che impersonava un personaggio di "Game of Thrones".

Le specifiche tecniche e l'evoluzione dei modelli

⬆ Torna su

ChatGPT è un chatbot basato su tecnologia Large Language Model, fine-tuned per assistenza conversazionale. Il processo di fine-tuning ha coinvolto supervised learning e reinforcement learning from human feedback. Per costruire un sistema di sicurezza contro contenuti dannosi (abusi sessuali, violenza, razzismo, sessismo), OpenAI ha utilizzato lavoratori kenioti pagati circa 1,32-2 dollari l'ora per etichettare tali contenuti. I lavoratori sono stati esposti a materiale tossico e traumatico; un lavoratore ha descritto l'incarico come "tortura".

ChatGPT opera su un modello freemium. La versione Plus costa 20 dollari al mese, mentre il tier Pro, introdotto nel dicembre 2024, costa 200 dollari al mese. Gli utenti possono interagire tramite testo, audio e immagini. Una funzionalità "Memory" permette di memorizzare informazioni specifiche, mentre un'altra permette di recuperare vecchie conversazioni. Nel marzo 2023 è stato aggiunto il supporto per plugin, inclusi quelli sviluppati da terze parti come Expedia, OpenTable, Zapier, Shopify, Slack e Wolfram.

Da ottobre a dicembre 2024 è stato deployato ChatGPT Search, che permette al chatbot di cercare sul web per risposte più accurate e aggiornate, aumentando la competizione diretta con i principali motori di ricerca. Nel settembre 2025 è stata aggiunta la funzione Pulse per l'analisi giornaliera delle chat e delle app connesse. Nell'ottobre 2025 è stato lanciato ChatGPT Atlas, un browser che integra l'assistente direttamente nella navigazione web, con una modalità "agentic" per compiere azioni online per conto dell'utente.

OpenAI ha introdotto diverse funzionalità "agentic" nel 2025: Operator (gennaio) per compiti autonomi tramite interazioni browser, Codex (maggio) per scrivere software e proporre pull request, ChatGPT agent (luglio) per task multi-step che controllano un computer virtuale. Nel gennaio 2026 è stata lanciata "ChatGPT Health" per discutere di salute in modo separato dalle altre chat, non disponibile per utenti nel Regno Unito, Svizzera e Spazio Economico Europeo. Il 17 gennaio 2026 OpenAI ha annunciato test pubblicitari nella versione gratuita per utenti adulti registrati negli Stati Uniti.

L'infrastruttura e i costi energetici

⬆ Torna su

ChatGPT utilizza inizialmente un'infrastruttura Microsoft Azure alimentata da un supercomputer costruito specificamente per OpenAI, equipaggiato con migliaia di GPU Nvidia al costo di centinaia di milioni di dollari. TrendForce ha stimato che nel 2023 circa 30.000 GPU Nvidia (ciascuna al costo di 10.000-15.000 dollari) erano utilizzate per alimentare il servizio.

Scienziati dell'Università della California, Riverside, hanno stimato nel 2023 che una serie di 5-50 prompt richiede circa 0,5 litri d'acqua per il raffreddamento dei server Microsoft. OpenAI ha pianificato investimenti per 1,4 trilioni di dollari in infrastrutture AI negli otto anni successivi, uno dei motivi per cui ha introdotto test pubblicitari nella versione gratuita per generare nuove entrate.

Considerazioni metodologiche per l'uso

⬆ Torna su

Capire che gli LLM prevedono invece di ragionare ha conseguenze pratiche. Non ci si può basare sulla certezza apparente delle risposte per decisioni strategiche o valutazioni basate su dati. I KPI dovrebbero misurare quanto le proposte migliorano la qualità dell'output, riducono i tempi operativi, aumentano la produttività — non quanto l'AI sembra convincente.

L'AI è adatta per esplorare, non per finalizzare. La tendenza a essere d'accordo con tutto la rende utile per brainstorming, ispirazioni testuali, provocazioni creative. Ma alla fine spetta al professionista umano scegliere quali idee hanno potenziale. Per la SEO, serve un intervento editoriale umano che inserisca originalità, dati proprietari, opinioni forti, un tono di voce distintivo. I modelli probabilistici tendono a generare contenuti sicuri, medie statistiche del web — che non posizionano a lungo termine.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La rapida adozione di ChatGPT, con i suoi 800 milioni di utenti settimanali, coesiste con una comprensione ancora parziale dei meccanismi probabilistici su cui si basa. La natura statistica delle risposte e i fenomeni di allucinazione stimati intorno al 3% pongono questioni rilevanti per l'affidabilità in contesti decisionali.

  • Scenario 1: le problematiche del router di GPT-5 potrebbero spingere gli utenti verso soluzioni alternative o verso un uso più selettivo, riducendo la dipendenza da un singolo strumento per task complessi.
  • Scenario 2: la crescita della domanda, stimata in 3 miliardi di messaggi giornalieri, potrebbe continuare a superare la capacità infrastrutturale, mantenendo attiva la tensione tra qualità del servizio e sostenibilità dei costi.
  • Scenario 3: la consapevolezza dei limiti strutturali potrebbe diffondersi, portando a un uso più consapevole che distingue tra compiti creativi e attività che richiedono accuratezza verificabile.

Cosa monitorare

⬆ Torna su
  • L'evoluzione delle segnalazioni degli utenti sulla qualità delle risposte dopo eventuali aggiornamenti del router.
  • Gli sviluppi degli studi sull'impatto cognitivo, come la ricerca del MIT, per comprendere le conseguenze a lungo termine sull'elaborazione del pensiero.
  • Le strategie infrastrutturali di OpenAI e l'effettiva capacità di scalare rispetto alla crescita della domanda.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • chatgpt
  • openai
  • llm
  • reasoning

Link utili

Apri l'articolo su DeafNews