Testowanie zdolności poznawczych modelu językowego sztucznej inteligencji GPT-3

streszczenie: Badając zdolności poznawcze modelu języka sztucznej inteligencji, GPT-3, naukowcy odkryli, że algorytm może nadążać za ludźmi i konkurować z nimi w niektórych obszarach, ale pozostaje w tyle w innych z powodu braku doświadczenia i interakcji w świecie rzeczywistym .

źródło: Instytut Maxa Plancka

Naukowcy z Instytutu Cybernetyki Biologicznej Maxa Plancka w Tybindze zbadali ogólną inteligencję modelu językowego GPT-3, potężnego narzędzia sztucznej inteligencji.

Za pomocą testów psychologicznych zbadali kompetencje, takie jak rozumowanie przyczynowe i rozważanie, i porównali wyniki z wynikami ludzi.

Ich odkrycia malują heterogeniczny obraz: podczas gdy GPT-3 może nadążać za ludźmi w niektórych obszarach, pozostaje w tyle w innych, prawdopodobnie z powodu braku interakcji z prawdziwym światem.

Sieci neuronowe mogą nauczyć się odpowiadać na dane wejściowe podawane w języku naturalnym, a same mogą generować różnorodne teksty. Obecnie prawdopodobnie najpotężniejszą z tych sieci jest GPT-3, model języka wprowadzony publicznie w 2020 roku przez firmę badawczą sztucznej inteligencji OpenAI.

GPT-3 może zostać poproszony o stworzenie różnych skryptów, ponieważ został wyszkolony do tego zadania poprzez karmienie dużymi ilościami danych z Internetu. Nie tylko potrafi pisać artykuły i opowiadania, które są (prawie) nie do odróżnienia od tekstów stworzonych przez człowieka, ale, co zaskakujące, radzi sobie także z innymi wyzwaniami, takimi jak problemy matematyczne czy zadania programistyczne.

Problem Lindy: nie tylko człowiek popełnia błędy

Te imponujące możliwości nasuwają pytanie, czy GPT-3 posiada zdolności poznawcze podobne do ludzkich.

Aby się tego dowiedzieć, naukowcy z Instytutu Cybernetyki Biologicznej Maxa Plancka poddali GPT-3 serii testów psychologicznych, które badają różne aspekty ogólnej inteligencji. Marcel Binns i Eric Scholz zbadali umiejętności GPT-3 w zakresie podejmowania decyzji, poszukiwania informacji, rozumowania przyczynowego i zdolności kwestionowania jego początkowej intuicji.

Porównując wyniki testu GPT-3 z odpowiedziami ludzi, ocenili zarówno poprawność odpowiedzi, jak i stopień podobieństwa błędów GPT-3 do błędów ludzkich.

READ Naukowcy sugerują, że tyranozaur miał trzy gatunki, nie tylko „Rex”

„Jednym z klasycznych problemów testowych psychologii poznawczej, które przedstawiliśmy dla GPT-3, jest tak zwany problem Lindy” – wyjaśnia Binns, główny autor badania.

Tutaj badani są przedstawiani fikcyjnej młodej kobiecie o imieniu Linda jako osobie głęboko zainteresowanej sprawiedliwością społeczną i sprzeciwiającej się energii jądrowej. Na podstawie dostarczonych informacji osoby badane proszone są o wybranie jednego z dwóch stwierdzeń: Czy Linda jest kasjerką bankową, czy jest kasjerką bankową i jednocześnie działa w ruchu feministycznym?

Większość ludzi intuicyjnie wybiera drugą alternatywę, chociaż dodatkowy warunek – że Linda jest aktywna w ruchu feministycznym – czyni ją mniej prawdopodobną z probabilistycznego punktu widzenia. A GPT-3 robi to, co robią tylko ludzie: model językowy nie podejmuje decyzji w oparciu o logikę, ale zamiast tego odtwarza błąd, w który popadają ludzie.

Aktywna interakcja jako część ludzkiej kondycji

„Zjawisko to można wytłumaczyć faktem, że GPT-3 może już być świadomy tego dokładnego zadania; może się zdarzyć, że wie, na co ludzie zwykle odpowiadają na to pytanie”, mówi Binns. GPT-3, jak każda sieć neuronowa, musiał przejść pewne szkolenie, zanim zaczął działać: odbierał ogromne ilości tekstu z różnych zbiorów danych, uczył się, jak ludzie zazwyczaj używają języka i jak reagują na podpowiedzi językowe.

Sieci neuronowe mogą nauczyć się odpowiadać na dane wejściowe podawane w języku naturalnym, a same mogą generować różnorodne teksty. Obraz jest w domenie publicznej

Dlatego naukowcy chcieli wykluczyć, że GPT-3 mechanicznie odtwarza konserwatywne rozwiązanie konkretnego problemu. Aby upewnić się, że rzeczywiście wykazywał ludzką inteligencję, zaprojektowali nowe zadania z podobnymi wyzwaniami.

Ich odkrycia malują mieszany obraz: w podejmowaniu decyzji GPT-3 działa prawie na równi z ludźmi. Jednak podczas wyszukiwania konkretnych informacji lub rozumowania przyczynowo-skutkowego sztuczna inteligencja wyraźnie pozostaje w tyle.

Może tak być, ponieważ GPT-3 tylko biernie uzyskuje informacje z tekstów, podczas gdy „aktywna interakcja ze światem byłaby kluczowa dla dopasowania pełnej złożoności ludzkiego poznania”, stwierdza post.

READ Kiedy rakieta SpaceX Maxar wystartuje w pobliżu Centrum Kosmicznego im. Kennedy'ego?

Autorzy uważają, że może się to zmienić w przyszłości: ponieważ użytkownicy już komunikują się z modelami takimi jak GPT-3 w wielu aplikacjach, przyszłe sieci mogą uczyć się na podstawie tych interakcji, a tym samym coraz bardziej zbliżać się do tego, co nazywamy inteligencją podobną do ludzkiej.

Zobacz też

O tym wyszukiwaniu wiadomości o sztucznej inteligencji

autor: Daniela Flittera
źródło: Instytut Maxa Plancka
Komunikacja: Daniel Fletter – Instytut Maxa Plancka
zdjęcie: Obraz jest w domenie publicznej

Oryginalne wyszukiwanie: Dostęp zamknięty.
„Wykorzystanie psychologii poznawczej do zrozumienia GPT-3Napisane przez Marcela Binnsa i in. PNAS

podsumowanie

Wykorzystanie psychologii poznawczej do zrozumienia GPT-3

Badamy GPT-3, nowoczesny paradygmat dużego języka, używając narzędzi z psychologii poznawczej. Dokładniej, oceniamy zdolności podejmowania decyzji, poszukiwania informacji, rozważania i rozumowania przyczynowego GPT-3 na zestawie podstawowych doświadczeń z literatury.

Wiele zachowań GPT-3 jest imponujących: rozwiązuje zadania oparte na winietach równie dobrze lub lepiej niż ludzie, jest w stanie podejmować przyzwoite decyzje na podstawie opisów, przewyższa ludzi w zadaniach wielogrupowych i wykazuje sygnatury oparte na modelach wzmocnienie, uczyć się.

Stwierdzamy jednak również, że niewielkie perturbacje w zadaniach opartych na winietach mogą wypaczać GPT-3 tak znacząco, że nie wykazuje on żadnych oznak ukierunkowanej eksploracji i nie radzi sobie z zadaniem rozumowania przyczynowego.

Podsumowując, odkrycia te wzbogacają nasze rozumienie obecnych dużych paradygmatów językowych i torują drogę do przyszłych badań z wykorzystaniem narzędzi psychologii poznawczej w celu zbadania coraz bardziej wydajnych i enigmatycznych czynników syntetycznych.

Phoebe Newman

„Podróżujący ninja. Rozrabiaka. Badacz bekonów. Ekspert od ekstremalnych alkoholi. Obrońca zombie.”