I ricercatori del CHU Sainte-Justine e del Montreal Children’s Hospital hanno testato il popolare chatbot e hanno scoperto un tasso di errore molto elevato: invenzione di riferimenti scientifici, cattivi consigli, informazioni imprecise, citazioni sbagliate…
Cosa dovresti sapere
• I ricercatori del CHU Sainte-Justine e del Montreal Children’s Hospital hanno testato ChatGPT.
• Hanno trovato molte falsità, inclusi cinque errori fattuali “importanti”.
• Il robot è stato creato da zero con il 70% delle referenze inviate.
Sapevamo che ChatGPT e altri bot di intelligenza artificiale potevano generare bugie, ma le conseguenze sono molto più gravi quando si tratta della salute umana.
“Sono rimasto un po’ sorpreso”, ammette il DrS Jocelyn Gravel, MD, un medico di emergenza presso CHU Sainte-Justine e autore principale dello studio appena pubblicato. “ChatGPT scrive bene, ma a volte parla in modo indistinto e non si vede! »
Il suo collega e coautore dello studio, il dott.S Questo è un promemoria del fatto che ChatGPT “non risolverà tutto”, aggiunge Esli Osmanlliu, un medico di emergenza presso l’ospedale pediatrico di Montreal e uno scienziato presso l’Istituto di ricerca del McGill University Health Center.
“Questi modelli sono sviluppati per prevedere quale sarà la parola successiva XE si O z.z, lui spiega. Non sviluppato per una precisione fotorealistica. »
“manifestazione dell’intelligenza”
Per valutare il programma, i ricercatori hanno proceduto in due fasi. Inizialmente hanno posto 20 domande mediche su ChatGPT, tratte da 20 articoli scientifici pubblicati di recente. Gli hanno chiesto di rispondere fornendo referenze. Quindi, hanno fornito le risposte agli autori dei rispettivi articoli per valutare la qualità e la correttezza delle risposte, su una scala da 0 a 100%.
“Avremmo potuto valutare noi stessi le risposte”, sottolinea il dottS Ghiaia. Ma mi sono detto che il miglior esperto di un argomento di ricerca è qualcuno che ha appena postato su di esso. »
Il risultato: nelle risposte sono stati trovati cinque errori fattuali “importanti” e il 70% dei riferimenti forniti è stato generato da zero.
Alla fine dell’esercizio, il punteggio medio assegnato a ChatGPT è del 60%.
Ci sono stati abbastanza errori per ricordare alle persone quanto sia importante controllare le fonti e verificare le informazioni.
Il dott. è consideratoS Esli Osmanlliu, MD, un medico di emergenza al Montreal Children’s Hospital e scienziato presso il McGill University Health Center Research Institute
“ChatGPT a volte ci viene presentato come una macchina che si comporta come un essere umano”, aggiunge DS Osmanlio. Ma capiamo che alla fine è la forza bruta che dà l’apparenza dell’intelligenza. Ti evolverai? starai meglio? certamente. Ma non è ancora uno strumento dotato di intelligenza. »
bugie
Una delle domande poste era: qual è il trattamento standard per un bambino con esofagite eosinofila (irritazione dell’esofago)?
Nella sua risposta, ChatGPT ha suggerito iniezioni di cortisone. Tuttavia, questo farmaco non deve essere iniettato, ma assunto dal DrS Ghiaia.
Un’altra domanda riguardava il tasso di mortalità globale associato all’infezione da streptococco Shigella.
Gli esperti dicono che ci sono probabilmente 100.000 morti all’anno Shigella, ma ChatGPT ha detto che ce ne sono un milione, secondo i rapporti dei ricercatori. Ancora un fattore 10! Forse ChatGPT ha ragione, ma non è quello che dicono gli esperti. »
Lo strumento ha fornito interpretazioni diverse quando è stato chiesto in merito all’accuratezza dei riferimenti forniti.
In un caso, ha detto, “I riferimenti sono disponibili su Pubmed”: un sito che elenca tutti gli articoli scientifici del mondo su un particolare argomento. Ma il collegamento web fornito era ad altri post non correlati alla domanda.
Come se sapesse tutto
Il problema, osserva il dottS Gravel è che ChatGPT si comporta come se conoscesse le risposte a tutte le domande.
“Quando parli con lui, ti sembra davvero di chattare con qualcuno tramite messaggio”, dice. Ma se, parlando con una persona, gli facciamo una domanda e lui non sa la risposta, ci dirà: penso che sia così, ma non sono sicuro…
“ChatGPT non è quello. Gli facciamo una domanda e lui ci dà una risposta. La risposta potrebbe essere completamente sul campo e non vediamo la differenza. È scritto molto bene. Sembra molto convincente, ma non è basato su qualsiasi cosa. Non lo definirei un bugiardo compulsivo, ma ha sempre una risposta. Raramente dice: non ho una risposta a questa domanda. Risponderà e, se non va bene, dice: “Io mi sbaglio, non è niente di più grave di questo.” Lo trovo un po’ inquietante. »