Paul Mayer, który jest głuchy od urodzenia, podczas swojej prawie trzydziestoletniej kariery zawodowej w dziale kadr i rekrutacji technicznej korzystał z usług tłumaczy ustnych i napisów do komunikacji ze współpracownikami.
Jednak gdy podczas pandemii firmy zaczęły w większym stopniu polegać na wideokonferencjach, zauważył niepokojącą tendencję. W miarę przenoszenia spotkań do Internetu firmy zaczynają regularnie korzystać z oprogramowania do transkrypcji opartego na sztucznej inteligencji. Ponieważ technologia ta stała się częścią codziennej pracy, niektórzy pracodawcy uznali, że można ją zastosować w innych sytuacjach, na przykład w celu zastąpienia tłumaczy ustnych.
Zdaniem Mayera problem polega na tym, że technologia ma wady, z których pracodawcy nie zdają sobie sprawy, co utrudnia życie niesłyszącym pracownikom.
„Firma uważała, że technologia napisów AI jest doskonała. Byli zdezorientowani, że brakuje mi tak wielu informacji.
Technologia rozpoznawania mowy, która stała się dostępna w miejscach pracy w latach 90. XX wieku, uległa radykalnej poprawie i stworzyła osobom niepełnosprawnym nowe możliwości prowadzenia rozmów, gdy nie ma tłumacza.
Obecnie stało się szeroko stosowane przez organizację Listening to People jako narzędzie zwiększające produktywność, które może na przykład pomóc zespołom w podsumowywaniu notatek lub tworzeniu transkrypcji spotkań. Według Forrester Research 39% pracowników ankietowanych na całym świecie stwierdziło, że ich pracodawcy zaczęli korzystać z generatywnej sztucznej inteligencji lub planują włączyć ją do wideokonferencji. Obecnie sześciu na dziesięciu korzysta z cotygodniowych konferencji internetowych lub wideokonferencji, a od 2020 r. liczba ta podwoiła się.
To opowiadanie powstało we współpracy z Pulitzer Center Sieć Odpowiedzialności Amnesty International
Zwiększona dostępność ma wiele zalet dla niesłyszących pracowników, ale niektórzy ostrzegają, że narzędzia te mogą być szkodliwe dla osób niepełnosprawnych, jeśli pracodawcy nie zrozumieją ich ograniczeń. Jedną z obaw jest założenie, że sztuczna inteligencja może zastąpić wyszkolonych tłumaczy pisemnych i ustnych. Zaniepokojenie pogłębia historyczny brak wkładu osób niepełnosprawnych w produkty AI, nawet niektóre reklamowane jako technologie wspomagające.
Modele rozpoznawania mowy często nie rozumieją osób mówiących nieregularnie lub z akcentem i mogą słabo działać w hałaśliwym otoczeniu.
„Ludzie mają błędne przekonanie, że sztuczna inteligencja jest dla nas idealna. Dla nas nie jest idealna” – mówi Mayer. Został zwolniony z pracy i uważa, że brak odpowiednich warunków pracy uczynił go łatwym celem, gdy firma zmniejszała zatrudnienie.
Niektóre firmy chcą obecnie ulepszyć technologię rozpoznawania głosu, na przykład szkoląc swoje modele w zakresie szerszego zakresu mowy.
Na przykład Google zaczął zbierać bardziej zróżnicowane próbki audio w 2019 r., gdy zdał sobie sprawę, że jego własne modele nie sprawdzają się u wszystkich użytkowników. W 2021 roku wypuściła aplikację Project Relate na Androida, która zbiera indywidualne próbki audio w celu utworzenia transkrypcji mowy użytkownika w czasie rzeczywistym. Aplikacja jest przeznaczona dla osób mających trudności z mówieniem, w tym osób cierpiących na głuchotę, stwardnienie zanikowe boczne (ALS), chorobę Parkinsona, rozszczep podniebienia i jąkanie.
W 2022 roku cztery kolejne firmy technologiczne – Amazon, Apple, Meta i Microsoft – dołączyły do Google w ramach badań prowadzonych pod kierunkiem Instytutu Beckmana na Uniwersytecie Illinois w Urbana-Champaign, aby zebrać więcej próbek audio, które zostaną udostępnione innym badaczom.
Badacz Google Dmitry Kanevsky, który ma rosyjski akcent i mówi w niestandardowy sposób, twierdzi, że aplikacja Relate umożliwiła mu zaimprowizowane rozmowy z kontaktami, takimi jak inni uczestnicy konferencji matematycznych.
„Stałem się bardziej towarzyski. Mogłem komunikować się z każdym w dowolnym momencie i miejscu, a oni mnie rozumieli” – mówi Kanevsky, który stracił słuch w wieku 3 lat. „Dało mi to wspaniałe poczucie wolności”.
Grupa start-upów kierowanych przez osoby niesłyszące — takie jak OmniBridge, wspierane przez firmę Intel i Sign-Speak, finansowane przez Techstars — pracuje nad produktami skupiającymi się na tłumaczeniu między amerykańskim językiem migowym (ASL) a angielskim. Adam Monder, założyciel OmniBridge, mówi, że choć w Intelu miał szczęście mieć dostęp do tłumaczy przez cały dzień, także podczas wchodzenia do biura i na stołówce, to wie, że wiele firm takiego dostępu nie zapewnia.
„Dzięki OmniBridge może wypełnić rozmowy na korytarzu i w kawiarni” – mówi Monder.
Jednak pomimo postępu w tej dziedzinie istnieją obawy dotyczące niedostatecznej reprezentacji osób niepełnosprawnych w opracowywaniu niektórych najpopularniejszych narzędzi tłumaczeniowych. „Wiele słyszących osób znajduje rozwiązania lub próbuje coś zrobić, zakładając, że wiedzą, czego potrzebują osoby niesłyszące, zakładając, że znają najlepsze rozwiązanie, ale mogą nie rozumieć całej historii” – mówi Monder.
W Google, gdzie 6,5 procent pracowników identyfikuje się jako niepełnosprawni, Gallon Hall, jedyna czarnoskóra kobieta w grupie niesłyszących i niedosłyszących pracowników Google, prowadzi od 2021 r. projekt mający na celu lepsze zrozumienie potrzeb osób czarnoskórych niesłyszący użytkownicy. . Wielu mówiło, używając czarnego ASL, odmiany amerykańskiego języka migowego, który był w dużej mierze zróżnicowany przez segregację rasową w amerykańskich szkołach w XIX i XX wieku. Mówi, że osoby, z którymi rozmawiała, nie stwierdziły, że produkty Google dobrze się w ich przypadku sprawdzają.
„Jest wielu niesłyszących użytkowników, którzy są biegli w kwestiach technicznych, ale zwykle nie włącza się ich do ważnych dialogów podczas ich opracowywania” – mówi Hall bardziej zostaną w tyle.”
W Niedawny artykułzespół pięciu badaczy niesłyszących lub niedosłyszących odkrył, że większość niedawno opublikowanych badań nad językiem migowym nie uwzględnia perspektywy osób niesłyszących. Nie wykorzystano także zbiorów danych reprezentatywnych dla osób niesłyszących i nie uwzględniono decyzji dotyczących modelowania, które utrwalają błędne uprzedzenia na temat języka migowego i społeczności niesłyszących. Te uprzedzenia mogą w przyszłości stać się problemem dla niesłyszących pracowników.
„To, co osoby, które się nie zarejestrowały, uznają za «wystarczająco dobre», może spowodować, że punkt odniesienia dla wprowadzenia produktów na rynek będzie raczej niski” – mówi Maartje de Mulder, starszy pracownik naukowy na Uniwersytecie Nauk Stosowanych w Utrechcie w Holandii. który był współautorem artykułu. „To niepokojące, ponieważ technologia nie będzie wystarczająco dobra lub nie zostanie przyjęta dobrowolnie przez niesłyszących pracowników, gdy są proszeni lub nawet zmuszani do jej używania”.
Ostatecznie firmy będą musiały nadać priorytet ulepszaniu tych narzędzi dla osób niepełnosprawnych. Pomimo raportów badaczy Google nie wprowadził jeszcze postępów w modelach zamiany mowy na tekst do produktów komercyjnych Zmniejsz poziom błędów o jedną trzecią.
Hall twierdzi, że otrzymała pozytywne opinie na temat swojej pracy od kierownictwa wyższego szczebla, ale nie jest jasne, czy będzie ona miała wpływ na decyzje Google dotyczące produktów.
Jeśli chodzi o Mayera, ma on nadzieję, że pojawi się więcej reprezentacji osób niesłyszących i narzędzi przeznaczonych dla osób niepełnosprawnych. „Myślę, że problem ze sztuczną inteligencją polega na tym, że ludzie myślą, że dzięki temu łatwiej będzie im z nami rozmawiać, podczas gdy nam rozmowa z nimi może nie być łatwa” – mówi Mayer.
Praca projektowa wg Karolina Nevitt