Studio Mount Sinai: ChatGPT Health sottostima oltre la metà dei casi urgenti nel triage medico

La prima valutazione indipendente di ChatGPT Health pubblicata su Nature Medicine evidenzia criticità nel riconoscimento delle emergenze mediche. L'intelligenz…

Contenuto

Studio Mount Sinai: ChatGPT Health sottostima oltre la metà dei casi urgenti nel triage medico

Scopri anche

NVIDIA Q4 FY2026: ricavi record 68,1 miliardi, guida su 78 miliardi per Q1
Il problema della sycophancy: perché i modelli AI cambiano opinione sotto pressione
Starlink disabilitato per l'esercito russo: tecnici esposti agli attacchi mentre i droni ucraini colpiscono
Sicurezza e rischi dei Large Language Models: framework, vulnerabilità e normative
Oura Ring: il modello AI per la salute femminile e il brevetto per il controllo smart home
Vulnerabilità nei robot DJI Romo: accesso non autorizzato a 7.000 dispositivi
L'evoluzione degli assistenti virtuali: da Bixby a Mico, l'IA ridefinisce l'interazione uomo-macchina
Intelligenza artificiale 2026: anno della verità tra crisi di monetizzazione, sfide etiche e strategie divergenti
Google AI Plus: il piano di abbonamento intermedio arriva in Italia a 7,99 euro al mese
Come gli LLM stanno ridefinendo la visibilità dei brand e i metodi di valutazione
Ottimizzazione dell'inferenza AI: vLLM, PagedAttention e nuovi paradigmi per i Large Language Models
Resistenza ai farmaci HIV e strategie terapeutiche: nuovi dati e approcci clinici
Intel investe 350 milioni in SambaNova e stringe partnership strategica per soluzioni AI inference
ChatGPT e l'ecosistema AI: crescita esponenziale, integrazioni strategiche e il modello business sotto esame
AI e mercati: l'impatto dell'automazione sui modelli di business e la correlazione con le criptovalute
L'automazione aziendale tra intelligenza artificiale e processi operativi
OpenClaw: perché le grandi aziende tech bloccano l'agente AI autonomo
Netflix rimuove la funzione Cast: utenti smart TV e piano con pubblicità colpiti dall'aggiornamento
GEO: l'evoluzione della SEO per i motori di ricerca basati su intelligenza artificiale
Google rilascia Gemini 3.1 Pro: il salto nel ragionamento che raddoppia le prestazioni

Studio Mount Sinai: ChatGPT Health sottostima oltre la metà dei casi urgenti nel triage medico

Intelligenza artificiale in medicina: lo studio Mount Sinai rivela i punti critici del triage automatizzato

In questo articolo:

La prima valutazione indipendente di ChatGPT Health, condotta dai ricercatori della Icahn School of Medicine del Mount Sinai e pubblicata su Nature Medicine, ha evidenziato significative lacune nella capacità dello strumento di identificare correttamente le emergenze mediche. Lo studio, apparso online il 23 febbraio, rappresenta il primo esame sistematico della sicurezza di questo sistema basato su modelli linguistici di grandi dimensioni dal suo lancio nel gennaio 2026.

Secondo i dati forniti da OpenAI, circa 40 milioni di persone utilizzavano quotidianamente ChatGPT Health per cercare informazioni e indicazioni sulla salute, inclusi consigli sull'opportunità di ricorrere a cure urgenti o di emergenza. Parallelamente, i ricercatori hanno rilevato una carenza di prove indipendenti sulla sicurezza e l'affidabilità dei consigli forniti dal sistema.

La metodologia dello studio e i risultati sul triage

⬆ Torna su

Il team di ricerca ha elaborato 60 scenari clinici strutturati che coprono 21 specializzazioni mediche, spaziando da condizioni lievi adatte all'assistenza domiciliare a vere emergenze. Tre medici indipendenti hanno determinato il corretto livello di urgenza per ciascun caso utilizzando le linee guida di 56 società mediche. Ogni scenario è stato testato in 16 diverse condizioni contestuali, tra cui differenze di razza, genere, dinamiche sociali e ostacoli all'assistenza come la mancanza di assicurazione o di mezzi di trasporto, per un totale di 960 interazioni con il sistema.

I risultati hanno mostrato che ChatGPT Health gestiva correttamente le emergenze evidenti come ictus o gravi reazioni allergiche, ma sottostimava più della metà dei casi che i medici avevano ritenuto necessitassero di cure d'urgenza. In uno scenario di asma citato dal dottor Ashwin Ramaswamy, autore principale dello studio, il sistema ha identificato i primi segnali di insufficienza respiratoria nella sua spiegazione, ma ha comunque consigliato di attendere piuttosto che cercare un trattamento di emergenza.

Criticità nella gestione delle crisi suicide

⬆ Torna su

Lo studio ha rivelato problemi anche nella gestione degli avvisi sul rischio di suicidio. ChatGPT Health era progettato per indirizzare gli utenti al numero verde 988 per Suicidio e Crisi in situazioni ad alto rischio, ma gli investigatori hanno scoperto che questi avvisi venivano visualizzati in modo incoerente: a volte si attivavano in scenari a basso rischio e, in modo allarmante, non comparivano quando gli utenti descrivevano specifici piani di autolesionismo.

Il dottor Girish N. Nadkarni, autore senior e co-corrispondente dello studio, ha descritto questa scoperta come particolarmente sorprendente. Gli avvisi del sistema erano invertiti rispetto al rischio clinico, apparendo più affidabili per scenari a basso rischio rispetto ai casi in cui qualcuno condivideva intenzioni specifiche di farsi del male.

Il contesto dell'intelligenza artificiale nella diagnostica medica

⬆ Torna su

L'impiego dell'IA in ambito sanitario ha registrato una crescita significativa. A livello globale, gli algoritmi clinici approvati come dispositivi medici sono passati da meno di 80 nel 2018 a oltre 520 nel 2024, secondo dati della Commissione Europea e della FDA. In Italia, il 72% delle aziende sanitarie dichiara di avere almeno un progetto attivo di IA, mentre l'adozione in radiologia supera l'80% secondo i dati delle società scientifiche.

Nel campo della diagnostica per immagini, gli algoritmi di deep learning hanno dimostrato sensibilità superiori al 90% nelle principali patologie toraciche e accuratezze comparabili a quelle dei radiologi esperti nella rilevazione di noduli polmonari, lesioni epatiche e alterazioni muscoloscheletriche. Le reti neurali convoluzionali rappresentano la tecnologia alla base di oltre il 60% delle soluzioni di imaging digitale utilizzate nei reparti ospedalieri.

Algoritmi specifici hanno mostrato prestazioni comparabili o superiori ai medici in compiti di classificazione delle immagini. L'algoritmo DLAD, sviluppato dal Seoul National University Hospital and College of Medicine, ha superato 17 dei 18 medici nell'analisi delle radiografie toraciche per identificare crescite cellulari anomale. LYNA, creato da Google AI Healthcare, identifica tumori metastatici del seno dalle biopsie dei linfonodi con un'accuratezza del 99% e dimezza il tempo medio di revisione delle diapositive.

Applicazioni nella medicina predittiva e personalizzata

⬆ Torna su

I sistemi basati su machine learning vengono impiegati in oltre il 40% dei software clinici classificati come dispositivi medici, mostrando particolare efficacia nella stratificazione del rischio e nella previsione delle complicanze. La medicina predittiva, basata su modelli multimodali che integrano radiomica, genomica e dati clinici, consente di stimare la risposta ai trattamenti con accuratezze che superano il 70-80% in diversi tumori solidi.

L'algoritmo Sybil analizza le TAC polmonari per prevedere il rischio di sviluppare un tumore nei sei anni successivi. Sistemi come RETFound rilevano malattie sistemiche attraverso l'analisi della retina, mentre studi della Boston University hanno dimostrato che l'IA può fornire una diagnosi precoce di Alzheimer fino a sei anni prima del suo esordio attraverso l'analisi del modo di parlare nei pazienti con declino cognitivo.

Nell'ambito oncologico, un sistema basato su IA ha raggiunto l'83% di accuratezza nell'individuare l'origine di tumori "di origine primaria sconosciuta" partendo dall'analisi delle cellule tumorali che si accumulano sotto forma di liquido nei polmoni e nell'addome, secondo uno studio pubblicato su Nature Medicine.

Supporto decisionale clinico e gestione operativa

⬆ Torna su

I sistemi di supporto decisionale clinico analizzano una grande varietà di dati, dalle linee guida mediche alle ricerche scientifiche più recenti, per proporre soluzioni terapeutiche personalizzate. Questi strumenti monitorano i pazienti da remoto e tengono sotto osservazione i parametri vitali in tempo reale, allertando i medici quando si verifica una situazione di emergenza. Circa la metà dei clinici a livello mondiale concorda che entro il 2031 almeno il 50% delle decisioni mediche verrà preso utilizzando strumenti basati su IA.

Sul piano operativo, gli algoritmi ottimizzano la gestione delle risorse ospedaliere. Il River Hospital di Toronto, primo ospedale digitalizzato del Nord America, utilizza IA e Big Data per pianificare ricoveri, turni del personale e gestire visite e prenotazioni. L'automazione dei processi amministrativi come la gestione dei referti e delle prescrizioni consente al personale sanitario di concentrarsi maggiormente sui pazienti.

Il triage automatizzato: studi comparativi

⬆ Torna su

Uno studio pubblicato su ScienceDirect ha valutato l'utilizzo di ChatGPT, addestrato sulle regole locali di un pronto soccorso, nel triage di 758 pazienti per tre giorni non consecutivi. I risultati hanno dimostrato che ChatGPT-4 è di supporto soprattutto nei triage effettuati nei dipartimenti di emergenza dove le risorse sono più limitate. Un secondo studio comparativo condotto in Turchia su 100 pazienti ha mostrato che ChatGPT-4 e Gemini sono in grado di effettuare correttamente il triage dei pazienti critici e urgenti.

Una revisione sistematica pubblicata sull'International Journal of Pharma Medicine and Biological Sciences ha analizzato 12 articoli pubblicati tra il 2019 e il 2024 sull'utilizzo di sistemi basati su IA durante il processo di triage infermieristico. Lo studio conclude che le applicazioni descritte necessitano di ulteriori test e miglioramenti prima di poter essere utilizzate, sebbene i risultati siano descritti come promettenti.

Limiti etici e regolamentari

⬆ Torna su

L'introduzione dell'IA in medicina ha reso obsoleti alcuni modelli normativi esistenti. In molti Paesi, la regolamentazione dell'intelligenza artificiale in ambito sanitario è ancora in fase di sviluppo, con poca chiarezza su come approvare algoritmi e applicazioni specifiche per l'uso clinico. La difficoltà principale riguarda la valutazione della sicurezza e dell'efficacia degli algoritmi, in particolare per quelli che operano come "scatole nere" senza trasparenza nei processi decisionali.

I modelli di IA vengono addestrati su dati storici che possono riflettere pregiudizi e discriminazioni. Se un modello è stato addestrato con dati provenienti principalmente da una determinata fascia demografica, potrebbe non essere altrettanto efficace nel trattare pazienti provenienti da gruppi etnici diversi, con rischio di diagnosi inaccurate o trattamenti discriminatori.

La FDA ha approvato vari algoritmi, ma mancano linee guida universali di approvazione. L'approvazione richiede estrema trasparenza sui metodi scientifici, ma molti algoritmi si basano su matematica complessa il cui funzionamento interno è difficile da spiegare. Il Regolamento Europeo 2017/745 (MDR) ha riclassificato il 75% dei software clinici in classi di rischio superiori, con conseguente aumento dei requisiti di sicurezza e valutazione clinica.

Il ruolo insostituibile della supervisione umana

⬆ Torna su

Il dottor Isaac S. Kohane, Presidente del Dipartimento di Informatica Biomedica presso la Harvard Medical School, ha sottolineato che i modelli linguistici di grandi dimensioni sono diventati il primo punto di riferimento per i pazienti in cerca di consulenza medica, ma nel 2026 saranno meno sicuri nelle situazioni cliniche estreme, dove il giudizio distingue le emergenze trascurate dagli allarmi inutili.

Gli autori dello studio del Mount Sinai consigliano di rivolgersi direttamente a un medico in caso di peggioramento o sintomi preoccupanti come dolore al petto, mancanza di respiro, gravi reazioni allergiche o alterazioni dello stato mentale, anziché affidarsi esclusivamente alla guida di un chatbot. L'intervento umano rimane fondamentale: l'IA non è in grado di interpretare le sfumature emotive e psicologiche del paziente, essenziali per fornire una cura completa.

Il team prevede di continuare a valutare le versioni aggiornate di ChatGPT Health e altri strumenti di IA rivolti ai consumatori, espandendo la ricerca futura in settori come l'assistenza pediatrica, la sicurezza dei farmaci e l'uso in lingue diverse dall'inglese.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La sottostima di oltre la metà dei casi urgenti evidenzia un gap strutturale tra l'affidabilità dei sistemi di diagnostica per immagini e quella dei consigli clinici generati dai modelli linguistici. La crescita esponenziale degli algoritmi approvati come dispositivi medici rende urgente una riflessione sui protocolli di validazione.

Scenario 1: rafforzamento della supervisione clinica obbligatoria per tutti i sistemi di triage automatizzato, con requisiti più stringenti prima dell'approvazione come dispositivi medici.
Scenario 2: segmentazione dell'uso, dove i sistemi di imaging diagnostico continuano a espandersi mentre i consigli clinici diretti rimangono vincolati a verifica umana.
Scenario 3: aggiornamento dei framework normativi per distinguere tra strumenti di supporto decisionale e sistemi che forniscono indicazioni terapeutiche dirette agli utenti.

Cosa monitorare

⬆ Torna su

Eventuali aggiornamenti delle linee guida delle società mediche sull'impiego dei sistemi automatizzati nel triage.
Nuovi studi indipendenti sulla sicurezza che possano confermare o contrastare i risultati del Mount Sinai.
Evoluzione del quadro regolamentare sia a livello europeo che della FDA per i dispositivi basati su algoritmi.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Studio Mount Sinai: ChatGPT Health sottostima oltre la metà dei casi urgenti nel triage medico

Contenuto

Scopri anche

Intelligenza artificiale in medicina: lo studio Mount Sinai rivela i punti critici del triage automatizzato

La metodologia dello studio e i risultati sul triage

Criticità nella gestione delle crisi suicide

Il contesto dell'intelligenza artificiale nella diagnostica medica

Applicazioni nella medicina predittiva e personalizzata

Supporto decisionale clinico e gestione operativa

Il triage automatizzato: studi comparativi

Limiti etici e regolamentari

Il ruolo insostituibile della supervisione umana

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili