Nowy chatbot Google przeszedł amerykański (ale tylko) test medyczny: ScienceAlert

Zrecenzowane badanie wykazało w środę, że medyczny chatbot Google oparty na sztucznej inteligencji uzyskał pozytywny wynik na trudnym amerykańskim egzaminie medycznym, ale jego odpowiedzi wciąż nie dorównują ludzkim lekarzom.

W zeszłym roku wersja ChatGPT – której programista OpenAI jest wspierany przez rywala Google, firmę Microsoft – rozpoczęła wyścig wśród gigantów technologicznych w rozwijającej się dziedzinie sztucznej inteligencji.

Chociaż wiele zrobiono na temat przyszłych możliwości i zagrożeń związanych ze sztuczną inteligencją, zdrowie jest jednym z obszarów, w którym technologia wykazała już znaczny postęp, a algorytmy są w stanie odczytać niektóre badania medyczne, a także ludzi.

Google po raz pierwszy ujawniło swoje narzędzie AI do odpowiadania na pytania medyczne, tzw Med-PaLMW Badanie preprint w grudniu. W przeciwieństwie do ChatGPT, nie został udostępniony publicznie.

Amerykański gigant technologiczny twierdzi, że Med-PaLM jest pierwszym dużym modelem językowym, technologią sztucznej inteligencji wyszkoloną na ogromnych ilościach tekstu stworzonego przez człowieka, który przeszedł amerykański egzamin medyczny (USMLE).

Zdawalność egzaminu, do którego przystępują studenci medycyny i lekarze przeszkoleni w Stanach Zjednoczonych, wynosi około 60 proc.

W lutym badanie wykazało, że ChatGPT osiągnął pomyślne lub prawie pomyślne wyniki.

W recenzowanym badaniu Opublikowane w czasopiśmie Natura W środę badacze Google powiedzieli, że Med-PaLM uzyskał 67,6 procent w pytaniach wielokrotnego wyboru w stylu USMLE.

„Med-PaLM działa zachęcająco, ale wciąż jest gorszy od lekarzy” – czytamy w badaniu.

Aby zidentyfikować i zredukować „halucynacje” – jak nazywa się modele sztucznej inteligencji, które podają fałszywe informacje – Google poinformowało, że opracowało nowe kryterium oceny.

Karan Singhal, badacz Google i główny autor nowego badania, powiedział AFP, że zespół wykorzystał test porównawczy do przetestowania nowej wersji swojego modelu z „bardzo ekscytującymi” wynikami.

Med-PaLM 2 osiągnął 86,5 procent na egzaminie USMLE, przewyższając poprzednią wersję o około 20 procent, zgodnie z badaniem opublikowanym w maju, które nie zostało zrecenzowane.

READ Daily Crunch: App Store i recenzje w mediach społecznościowych opisują sprzeciw użytkowników wobec nowego chatbota Snapchata

Słoń w pokoju

„W pokoju jest słoń” medycznych chatbotów napędzanych sztuczną inteligencją, powiedział James Davenport, informatyk z University of Bath w Wielkiej Brytanii, który nie był zaangażowany w badania.

Powiedział, że istnieje duża różnica między odpowiadaniem na „pytania medyczne a rzeczywistą medycyną”, która obejmuje diagnozowanie i leczenie rzeczywistych problemów zdrowotnych.

Halucynacje prawdopodobnie zawsze będą problemem w przypadku tak dużych modeli językowych, powiedział Anthony Cohn, ekspert od sztucznej inteligencji na Uniwersytecie w Leeds w Wielkiej Brytanii, ze względu na ich statystyczny charakter.

Dlatego „modele te należy zawsze postrzegać jako pomocników, a nie ostatecznych decydentów” – powiedział Cohn.

Singhal powiedział, że w przyszłości Med-PaLM może być wykorzystywany do wspierania klinicystów w oferowaniu alternatyw, które w przeciwnym razie mogłyby nie zostać rozważone.

The Wall Street Journal poinformował na początku tego tygodnia, że Med-PaLM 2 był w fazie testów w prestiżowym szpitalu badawczym Mayo Clinic w USA od kwietnia.

Senegal powiedział, że nie może mówić o konkretnych partnerstwach.

Podkreślił jednak, że żaden test nie byłby „kliniczny, skierowany do pacjenta ani w inny sposób potencjalnie szkodliwy dla pacjentów”.

Zamiast tego byłoby to dla „więcej zadań administracyjnych, które można stosunkowo łatwo zautomatyzować i przy niskim ryzyku” – dodał.

© AFP

Halsey Andrews

„Gaming doctor. Zombie fanatic. Music studio. Ninja cafe. TV buff. Nice alcoholic fanatic.