Sztuczna inteligencja, która widzi za pomocą dźwięku, uczy się chodzić i przewiduje fizykę sejsmiczną • TechCrunch

Badania nad uczeniem maszynowym i sztuczną inteligencją, które są obecnie podstawową technologią w niemal każdej branży i firmie, są zbyt masowe, aby ktokolwiek mógł je przeczytać w całości. ta kolumna, Perceptronma na celu zebranie niektórych z najnowszych odkryć i powiązanych artykułów naukowych – zwłaszcza z dziedziny sztucznej inteligencji, żeby wymienić tylko kilka – i wyjaśnienie, dlaczego są one ważne.

W tym miesiącu inżynierowie Meta opisali dwie ostatnie innowacje z głębi laboratoriów badawczych firmy: system AI, który kompresuje pliki audio oraz algorytm, który może 60-krotnie przyspieszyć działanie sztucznej inteligencji złożonej z białek. W innym miejscu naukowcy z Massachusetts Institute of Technology ujawnili, że wykorzystują przestrzenną informację akustyczną, aby pomóc maszynom lepiej wizualizować ich otoczenie, symulując sposób, w jaki słuchacz słyszy dźwięk z dowolnego miejsca w pomieszczeniu.

Akcja kompresji meta nie dociera dokładnie do niezbadanego obszaru. Google ogłosił w zeszłym roku liry, neuronowy kodek audio wyszkolony pod kątem kompresji mowy o niskiej szybkości transmisji bitów. Ale Meta twierdzi, że jej system jest pierwszym z jakością CD i dźwiękiem stereo, co czyni go przydatnym w zastosowaniach komercyjnych, takich jak rozmowy głosowe.

Rysunek architektoniczny modelu kompresji dźwięku AI w Meta. Kredyty obrazkowe: nie żyje

Korzystanie ze sztucznej inteligencji, zwanej systemem kompresji Meta. kodowanieDźwięk może być kompresowany i dekompresowany w czasie rzeczywistym na pojedynczym rdzeniu procesora z szybkością od 1,5 kb/s do 12 kb/s. W porównaniu z MP3, Encodec może osiągnąć współczynnik kompresji około 10x przy 64kbps bez zauważalnej utraty jakości.

Naukowcy stojący za Encodec twierdzą, że oceniający ludzie woleli jakość dźwięku przetwarzanego przez Encodec w porównaniu z dźwiękiem przetwarzanym przez Lyrę, co sugeruje, że Encodec może ostatecznie zostać wykorzystany do zapewnienia lepszej jakości dźwięku w sytuacjach, gdy przepustowość jest ograniczona lub przy wyższej cenie.

Jeśli chodzi o działanie fałdujące białka Meta, ma on mniejszy bezpośredni potencjał komercyjny. Ale może położyć podwaliny pod ważne badania naukowe w dziedzinie biologii.

Struktury białkowe przewidywane przez system Meta. Kredyty obrazkowe: nie żyje

Meta mówi, że jej system AI, ESMfold, przewidzieli struktury około 600 milionów białek bakterii, wirusów i innych drobnoustrojów, które nie zostały jeszcze scharakteryzowane. To ponad trzykrotnie więcej niż liczba struktur, które wspierany przez Alphabet DeepMind był w stanie przewidzieć na początku tego roku, co obejmowało prawie każde białko ze znanych organizmów w ich bazach danych DNA.

System Meta nie jest tak dokładny jak DeepMind. Spośród 600 milionów białek, które wyprodukował, tylko jedna trzecia była „wysokiej jakości”. Jest jednak 60 razy szybszy w przewidywaniu struktur, co umożliwia rozszerzenie przewidywania struktur na znacznie większe bazy danych białek.

Nie poświęcając Meta wiele uwagi, dział AI firmy również w tym miesiącu Zawias System zaprojektowany do myślenia matematycznego. Naukowcy z firmy twierdzą, że „rozwiązujący neuroproblemy” nauczył się na podstawie zestawu danych udanych dowodów matematycznych, aby uogólnić na nowe i różne typy problemów.

Meta nie jest pierwszą, która zbudowała taki system. OpenAI opracowało własne oprogramowanie o nazwie Lean. ogłosić w lutym. Oddzielnie DeepMind eksperymentował z systemami, które mogą rozwiązywać trudne problemy matematyczne w badaniach symetrii i węzłów. Ale Meta twierdzi, że jej narzędzie do rozwiązywania problemów neuronowych było w stanie rozwiązać pięć razy więcej IMO niż jakikolwiek poprzedni system AI i przewyższało inne systemy pod względem powszechnie stosowanych standardów matematycznych.

Meta sugeruje, że sztuczna inteligencja w rozwiązywaniu problemów matematycznych może przynieść korzyści dziedzinom weryfikacji oprogramowania, kryptografii, a nawet przestrzeni.

Zwracamy uwagę na pracę MIT i badania tamtejszych naukowców zaawansowane Model uczenia maszynowego, który może uchwycić sposób, w jaki dźwięki w pomieszczeniu rozchodzą się w przestrzeni. Modelując akustykę, system może poznać geometrię pomieszczenia z nagrań dźwiękowych, które następnie można wykorzystać do tworzenia wizualnych reprezentacji pomieszczenia.

Naukowcy twierdzą, że technologię tę można zastosować w programach wirtualnej i rozszerzonej rzeczywistości lub robotach, które muszą poruszać się w złożonych środowiskach. W przyszłości planują ulepszyć system, aby mógł uogólniać się na nowe i większe sceny, takie jak całe budynki, a nawet całe miasta.

W dziale robotyki w Berkeley dwie oddzielne drużyny Przyspiesza tempo, w jakim czworonożny robot może nauczyć się chodzić i wykonywać inne sztuczki. Jeden z zespołów próbował połączyć to, co najlepsze w branży, z kilkoma innymi postępami w uczeniu się ze wzmacnianiem, aby umożliwić robotowi przejście od pustej tablicy do energicznego spaceru po niepewnym terenie w zaledwie 20 minut w czasie rzeczywistym.

„Być może, co zaskakujące, odkryliśmy, że dzięki tak wielu rygorystycznym decyzjom projektowym w zakresie konfiguracji zadań i implementacji algorytmu, czworonożny robot może nauczyć się chodzić od zera przy użyciu głębokiego RL w mniej niż 20 minut, w wielu różnych środowiskach i rodzaje powierzchni. Co najważniejsze. Nie wymaga to nowych komponentów algorytmu ani żadnych innych nieoczekiwanych innowacji” – napisali naukowcy.

Zamiast tego wybierają i łączą nowoczesne metody i uzyskują niesamowite rezultaty. Możesz przeczytać gazetę tutaj.

Pokaz robota psa z laboratorium EECS profesora Petera Abela w Berkeley w Kalifornii w 2022 r. (Zdjęcie dzięki uprzejmości Philip Wu/Berkeley Engineering)

Inny projekt nauki ruchu, prowadzony przez (kolegę TechCruncha) laboratorium Petera Appela, został opisany jako „trening wyobraźni”. Ustawiają robota tak, aby starał się przewidzieć, jak będzie działać jego działanie i choć zaczyna bezradnie, szybko zdobywa więcej wiedzy o świecie i jego działaniu. Prowadzi to do lepszego procesu przewidywania, co prowadzi do lepszej wiedzy itp. w notatkach, dopóki nie przejdzie w mniej niż godzinę. Uczy się równie szybko, by wyzdrowieć z bycia popychanym lub „zakłóconym” w inny sposób, jak w języku. Ich praca jest udokumentowana tutaj.

Praca przyszła z potencjalnie bardziej natychmiastowym zastosowaniem z góry w tym miesiącu z Los Alamos National Laboratory, gdzie naukowcy opracowali technikę uczenia maszynowego do przewidywania tarcia występującego podczas trzęsień ziemi — zapewniając sposób przewidywania trzęsień ziemi. Korzystając z modelu językowego, zespół twierdzi, że był w stanie przeanalizować cechy statystyczne sygnałów sejsmicznych emitowanych przez usterkę w laboratoryjnej maszynie sejsmicznej, aby przewidzieć czas następnego trzęsienia ziemi.

„Model nie jest ograniczony fizyką, ale przewiduje fizykę i rzeczywiste zachowanie systemu” – powiedział Chris Johnson. Jedno z pionierskich badań w projekcie. „Teraz dokonujemy przyszłych prognoz na podstawie danych z przeszłości, co wykracza poza opisywanie chwilowego stanu systemu”.

Kredyty obrazkowe: czas snu

Naukowcy twierdzą, że technika ta jest trudna do zastosowania w prawdziwym świecie, ponieważ nie jest jasne, czy istnieje wystarczająca ilość danych do trenowania systemu predykcji. Mimo to są optymistycznie nastawieni do zastosowań, które mogą obejmować przewidywanie uszkodzeń mostów i innych konstrukcji.

Post w tym tygodniu to Uwaga ostrzegawcza od badaczy z MITktórzy ostrzegają, że sieci neuronowe używane do symulacji rzeczywistych sieci neuronowych muszą być dokładnie zbadane pod kątem błędu uczenia.

Sieci neuronowe oczywiście zależą od sposobu, w jaki nasze mózgi przetwarzają informacje i wysyłają do nich sygnał, wzmacniając pewne połączenia i grupy węzłów. Ale to nie znaczy, że urządzenia i reale działają w ten sam sposób. W rzeczywistości zespół MIT odkrył, że oparte na sieciach neuronowych symulacje komórek siatkówki (część układu nerwowego) wytwarzały podobną aktywność tylko wtedy, gdy były ściśle ograniczane przez ich twórców. Jeśli pozwoli się mu kontrolować siebie, tak jak robią to rzeczywiste komórki, nie spowoduje to pożądanego zachowania.

Nie oznacza to, że modele głębokiego uczenia są w tej dziedzinie bezużyteczne – daleko im do tego, są bardzo wartościowe. Ale, jak powiedział profesor Ila Fiete w szkolnej publikacji prasowej: „Może to być potężne narzędzie, ale trzeba być bardzo ostrożnym w jego interpretowaniu i ustalaniu, czy rzeczywiście tworzą nowe prognozy, a nawet rzucają światło na to, czym one są. Chodzi o to, że mózg staje się lepszy”.

Sztuczna inteligencja, która widzi za pomocą dźwięku, uczy się chodzić i przewiduje fizykę sejsmiczną • TechCrunch

Halsey Andrews

Rekomendowane artykuły

Marvel zawiera ukłon w stronę Daredevil Daredevil z Netflix w najnowszym odcinku Secret Invasion

Użytkownicy iPhone’a twierdzą, że system iOS 16.5 firmy Apple wyczerpuje żywotność baterii — co zrobić, jeśli dotyczy

Titanfall 3 został anulowany i jest to Apex Legends

Dodaj komentarz Anuluj pisanie odpowiedzi