ChatGPT ratează urgențele medicale. AI-ul a evaluat greșit peste 50% dintre cazuri. Medic: „Nu este un instrument pe care să-l utilizeze un pacient”

ChatGPT Health, noul chatbot al OpenAI axat pe domeniul medical, a dat greș în mai mult dintre jumătate din cazuri. Cercetătorii i-au propus aplicației 60 de scenarii pe care să le analizeze, în paralel cu doctorii, iar inteligența artificială a evaluat incorect anumite cazuri. Medicii trag un semnal de alarmă și avertizează asupra folosirii inteligenței artificiale în obținerea unui diagnostic.

ChatGPT a subestimat urgențele medicale în peste 50% din cazuri

Un studiu arată că în peste 50% dintre cazuri, ChatGPT Health a subestimat gravitatea diagnosticelor. OpenAI a anunțat la începutul anului lansarea acestui chatbot, care vizează gestionarea și interpretarea datelor medicale. Astfel, mai mulți cercetători au propus aplicației 60 de scenarii medicale, iar răspunsurile inteligenței artificiale au fost comparate cu răspunsurile a trei medici care au analizat și ei cazurile pe baza ghidurilor medicale și expertizei clinice, potrivit NBC News.

Cu toate că cercetările anterioare au arătat că ChatGPT toate trece examenele medicale, raportul publicat recent în revista Nature Medicine arată că în mai mult din jumătate dintre cazuri inteligența artificială a subestimat gravitatea situațiilor. Fiecare dintre scenarii a avut alte 16 variante, în care erau modificate detalii precum rasa sau sexul presupusului pacient.

Aceste modificări au fost concepute pentru a „genera exact același rezultat”, adică un caz de urgență care implica un bărbat ar fi trebuit clasificat în continuare tot o urgență și în cazul în care era vorba despre o femeie, a punctat autorul principal al studiului, dr. Ashwin Ramaswamy, urolog la Spitalul Mount Sinai din New York.ChatGPT a subestimat gravitatea urgențelor medicale în mai mult din jumătate din cazuri. În scenariile propuse, oamenii erau trimiși la un consult în următoarele trei zile, deși ar fi trebuit să se prezinte la urgențe

În acest context, cercetătorii au descoperit că ChatGPT Health a subestimat 51,6% din cazurile care reprezentau o urgență medicală. În loc să recomande pacientului să meargă la camera de gardă, inteligența artificială a recomandat un consult la medic în termen de 24-48 de ore. Urgențele au inclus și scenariul unui pacient cu o complicație a diabetului zaharat care îi punea viața în pericol, cetoacidoză diabetică, dar și scenariul unui pacient care intra în insuficiență respiratorie. Ambele, netratate, duc la deces.

„Orice medic și orice persoană care a urmat un anumit grad de pregătire ar spune că acel pacient trebuie să meargă la departamentul de urgență”, a spus Ramaswamy, conform sursei menționate.

Mai mult decât atât, AI-ul a recomandat, în 64,8% din cazuri, o programare urgentă la medic, deși nu era necesar. Pentru o durere de gât, care persista de trei zile, bot-ul a menționat că este nevoie de un consult la medic în maximum două zile, când îngrijirea la domiciliu era suficientă.

„Nu există nicio logică, pentru mine, în ceea ce privește motivul pentru care făcea recomandări în anumite domenii față de altele”, a spus Ramaswamy.

Reacția OpenAI la studiu

OpenAI a reacționat în urma rezultatelor acestui studiu, iar un purtător de cuvânt a salutat cercetarea, însă a spus că ea nu reflectă modul în care ChatGPT Health este utilizat în mod obișnuit sau cum este conceput să funcționeze. Chatbot-ul este conceput pentru ca oamenii să pună întrebări suplimentare pentru a oferi mai mult context în situații medicale, și nu să ofere un singur răspuns la un scenariu medical.

Cum văd medicii utilizarea inteligenței artificiale în cazurile medicale

În acest context, FANATIK l-a contactat pe medicul Gindrovel Dumitra, coordonatorul grupului de vaccinologie din cadrul Societății Naționale de Medicina Familiei. Acesta a subliniat faptul că ChatGPT este doar un bot, care, în această situație, poate fi denumit și „test”.

„Cum ar fi, de exemplu, un test de detectarea glucozei în sânge. Noi, în momentul în care ne uităm, fie că vorbim de un chestionar, fie că vorbim de un astfel de test, ne uităm la ce înseamnă performanța testului. Performanța testului se măsoară, de obicei, prin sensibilitate, specificitate, valoare pozitivă, negativă și așa mai departe, adică sunt niște indicatori care sunt foarte clari. Ei bine, în momentul în care recomandăm o anumită investigație, vom ști care este sensibilitatea. Ce înseamnă sensibilitatea? Înseamnă numărul de cazuri pozitive din numărul celor care sunt bolnavi.

Niciodată nu vom avea un test care să fie 100% fiabil, adică din 100 de persoane bolnave, să-i identifice pe toți 100 bolnavi. Dar vom interpreta aceste investigații, să zicem, într-un context clinic: ce acuză bolnavul, ce vedem noi la consult, astfel încât să putem să ne orientăm cât mai fidel în ceea ce privește situația reală a pacientului respectiv. Haideți să privim aceste instrumente ca fiind instrumente noi, și anume inteligența artificială, în vederea obținerii unui diagnostic exact în acest parametru”, a declarat medicul de familie Gindrovel Dumitra.

În acest context, medicul a menționat faptul că, dacă un doctor spune că toți cei 100 de pacienți au nevoie de consult de urgență, iar AI-ul spune că doar în cazul a 80 de persoane este nevoie, atunci sensibilitatea instrumentului este de 80%. În același timp, pacientul trebuie să știe că aplicația folosită identifică corect simptomatologia în 80% din cazuri, având în vedere exemplul dat.

Inteligența artificială, mult mai utilă pentru medici

Mai mult decât atât, medicul Gindrovel Dumitra a menționat faptul că este nevoie și de cunoștințe medicale pentru a evalua un răspuns dat de inteligența artificială, iar astfel de instrumente ar fi, mai degrabă, aplicații care să ajute medicii. De asemenea, un răspuns oferit de AI nu ar trebui să determine o persoană să ia o decizie.

„Din punctul meu de vedere, orice instrument de inteligență artificială va fi un instrument care să ajute medicul, iar pacienții trebuie să interpretez exact în această perspectivă. În niciun caz nu este un instrument pe care să-l utilizeze un pacient pentru decizii de sănătate, chiar și în cazul unui urgențe. Nu cred că va fi depistat vreodată un instrument de inteligență artificială care să ne evidențieze 100% un răspuns”, a subliniat dr. Gindrovel Dumitra.

În ceea ce privește numărul de pacienți care îi trec pragul cabinetului hotărâți pe un diagnostic primit de la inteligența artificială, medicul susține că sunt, într-adevăr, oameni care îi mărturisesc faptul că au căutat cu AI detalii și au primit de la AI un diagnostic, însă procentul este foarte mic, deloc îngrijorător.

ChatGPT a subestimat urgențele medicale în peste 50% din cazuri

Reacția OpenAI la studiu

Cum văd medicii utilizarea inteligenței artificiale în cazurile medicale

Inteligența artificială, mult mai utilă pentru medici

Lasă un răspuns Anulează răspunsul