Technologia rozpoznawania mowy przynosi znaczne korzyści osobom cierpiącym na dyzartrię

Podczas gdy Mark Hasegawa Johnson przeglądał dane do swojego najnowszego projektu, był mile zaskoczony, gdy odkrył przepis na jajka po florencku. Powiedział, że zbadanie setek godzin nagranych przemówień odkryje jeden lub dwa skarby.

Hasegawa Johnson kieruje projektem dostępności mowy, inicjatywą na Uniwersytecie Illinois w Urbana-Champaign, której celem jest uczynienie urządzeń rozpoznawających głos bardziej przydatnymi dla osób z niepełnosprawnością mowy.

W pierwszym opublikowanym badaniu projektu naukowcy poprosili automatyczny system rozpoznawania mowy o przesłuchanie 151 godzin dźwięku; Około sześciu i pół dnia -; Z nagrań osób z zaburzeniami mowy związanymi z chorobą Parkinsona. Ich model replikował nowy zbiór danych obejmujący podobne nagrania o 30% dokładniej niż model kontrolny, w którym nie słuchano osób chorych na chorobę Parkinsona.

Badanie to pojawia się w Journal of Speech, Language, and Hearing Research. Nagrania mowy wykorzystane w badaniu są swobodnie dostępne dla badaczy, organizacji non-profit i firm, które chcą ulepszyć swoje urządzenia do rozpoznawania głosu.

„Nasze wyniki sugerują, że duża baza danych dotycząca nietypowej mowy mogłaby znacząco ulepszyć technologię mowy dla osób niepełnosprawnych” – stwierdziła Hasegawa Johnson, profesor inżynierii elektrycznej i komputerowej w Illinois oraz badacz w uniwersyteckim Instytucie Zaawansowanej Nauki i Technologii Beckman. Gdzie zlokalizowany jest projekt. „Nie mogę się doczekać, aby zobaczyć, jak inne organizacje wykorzystają te dane, aby zapewnić bardziej włączające urządzenia do rozpoznawania głosu”.

Urządzenia takie jak smartfony i wirtualni asystenci korzystają z automatycznego rozpoznawania mowy, aby wydobywać znaczenie z wypowiedzi, umożliwiając tworzenie list odtwarzania, dyktowanie wiadomości bez użycia rąk, bezproblemowe uczestnictwo w wirtualnych spotkaniach i swobodną komunikację z przyjaciółmi i członkami rodziny.

Technologia rozpoznawania głosu nie działa dobrze dla wszystkich; W szczególności osoby z neurologicznymi zaburzeniami ruchu, takimi jak choroba Parkinsona, które mogą powodować szereg napiętych lub niespójnych wzorców mowy, zwanych łącznie dyzartrią.

READ Keeper Security udostępnia użytkownikom Androida tryb ciemny, ETCIO SEA

„Niestety oznacza to, że wiele osób, które najbardziej potrzebują urządzeń do sterowania głosem, może mieć większe trudności z ich prawidłowym używaniem” – stwierdziła Hasegawa-Johnson.

„Z istniejących badań wiemy, że jeśli wytrenujesz ASR na czyimś głosie, zacznie on dokładniej go rozumieć. Zadaliśmy sobie pytanie: czy można wytrenować automatyczny system rozpoznawania mowy, aby rozumiał osoby z dyzartrią Parkinsona, wystawiając go małej grupie osób. ludzie o podobnych wzorcach mowy?

Hasegawa-Johnson i współpracownicy zrekrutowali około 250 dorosłych z różnym stopniem dyzartrii związanej z chorobą Parkinsona. Przed przystąpieniem do badania potencjalni uczestnicy spotykali się z logopedą, który oceniał, czy kwalifikują się do udziału w badaniu.

„Wiele osób z długotrwałymi zaburzeniami komunikacji, zwłaszcza postępującymi, może wycofać się z codziennej komunikacji” – stwierdził Clarion Mendez, logopeda pracujący w zespole. „Mogą zbyt często dzielić się swoimi wyjątkowymi przemyśleniami, potrzebami i pomysłami, wierząc, że ich komunikacja jest zbyt zakłócona, aby angażować się w znaczące rozmowy.

„To są dokładnie te osoby, których szukamy” – dodała.

Wybrani uczestnicy do przesyłania nagrań dźwiękowych używali komputerów osobistych i smartfonów. Pracowali we własnym tempie i z opcjonalną pomocą opiekuna, powtarzając banalne polecenia głosowe, takie jak „Ustaw alarm”, czytając fragmenty powieści i udzielając otwartych opinii, takich jak „Proszę wyjaśnić, jak przygotować śniadanie dla czterech osób. ”

W odpowiedzi na ostatnie pytanie jedna z uczestniczek wymieniła etapy przygotowania jaj florenckich -; Sos holenderski i wszystko -; Inny praktycznie doradzał zamawianie na wynos.

„Słyszeliśmy od wielu uczestników, którzy mówili, że proces zaręczyn był nie tylko zabawą, ale dodał im pewności siebie, dzięki której mogą ponownie nawiązać kontakt z rodzinami” – powiedział Mendez. „Ten projekt przyniósł nadzieję, emocje i energię – cechy wyjątkowo ludzkie – wielu uczestnikom i ich bliskim”.

READ Społeczność moderska GTA 5 chce rozszerzyć swoją działalność na Nintendo Switch, Linux i Android: czego się spodziewać

Powiedziała, że zespół konsultował się z ekspertami od choroby Parkinsona i członkami społeczności, aby opracować treści istotne dla życia uczestników. Podpowiedzi były konkretne i spontaniczne: na przykład wytrenowanie algorytmu mowy w celu rozpoznawania nazw leków mogło pomóc użytkownikowi końcowemu w komunikacji z apteką, podczas gdy osoby rozpoczynające niezobowiązującą rozmowę naśladowały rytm codziennych pogawędek.

„Mówimy uczestnikom: Wiemy, że możesz uczynić swoją przemowę bardziej zrozumiałą, wkładając w nią cały swój wysiłek, ale być może masz już dość prób bycia zrozumianym dla dobra innych” – powiedział Mendez. „Spróbuj się zrelaksować i komunikuj się tak, jakbyś rozmawiał z rodziną w „Sofie”.

Aby zmierzyć, jak dobrze algorytm słuchał i uczył się mowy, naukowcy podzielili próbki na trzy grupy. Pierwsza grupa licząca 190 uczestników, czyli 151 zarejestrowanych godzin, trenowała model. W miarę poprawy wyników badacze potwierdzili, że model intensywnie się uczy (a nie tylko zapamiętuje odpowiedzi uczestników), wprowadzając go do drugiego, mniejszego zestawu nagrań. Kiedy model osiągnął najwyższą wydajność w drugim zestawie, badacze poddali go testowi.

Członkowie zespołu badawczego ręcznie transkrybowali średnio 400 nagrań na uczestnika, aby sprawdzić, czy model działa.

Ustalili, że po odsłuchaniu zbioru uczącego system ASR skopiował nagrania ze zbioru testowego ze współczynnikiem błędu słowa wynoszącym 23,69%. Dla porównania system wyszkolony na próbkach mowy osób bez choroby Parkinsona skopiował zestaw testowy ze współczynnikiem błędów słowa wynoszącym -36,3%; Prawie 30% mniej dokładne.

Poziom błędów również spadł w przypadku prawie wszystkich osób w grupie testowej. Nawet osoby mówiące z mniej typową mową parkinsonowską, taką jak niezwykle szybka mowa lub jąkanie, odnotowały niewielką poprawę.

„Byłam podekscytowana widząc tak ogromne korzyści” – powiedziała Hasegawa-Johnson.

Dodał, że jego entuzjazm wzmocniły komentarze uczestników:

„Rozmawiałem z jednym z uczestników, który był zainteresowany przyszłością tej technologii” – powiedział. „To właśnie jest wspaniałe w tym projekcie: widzieć, jak ludzie są podekscytowani możliwością bycia zrozumianymi przez inteligentne głośniki i telefony komórkowe. Właśnie to staramy się robić”.

READ Gdzie jest e-mail z zamówieniem w przedsprzedaży Steam Deck? Valve wyjaśnia

źródło:

Beckman Instytut Zaawansowanej Nauki i Technologii

Halsey Andrews

„Lekarz gier. Fanatyk zombie. Studio muzyczne. Kawiarni ninja. Miłośnik telewizji. Miły fanatyk alkoholik.