W zeszłym roku Meta odniosła znaczący sukces dzięki Segment Everything, modelowi uczenia maszynowego, który pozwala szybko i niezawodnie rozpoznać i zidentyfikować prawie wszystko na obrazie. Druga część, którą dyrektor generalny Mark Zuckerberg zadebiutował w poniedziałek na scenie w SIGGRAPH, przenosi model w przestrzeń wideo, pokazując, jak szybko porusza się pole.
Segmentacja to termin techniczny używany, gdy model wizyjny patrzy na obraz i wybiera części: „To jest pies, a to jest drzewo za psem”, miejmy nadzieję, a nie „To jest drzewo wyrastające z psa”. Dzieje się tak od dziesięcioleci, ale ostatnio stało się znacznie lepsze i szybsze, a Segment Everything stanowi ogromny krok naprzód.
Wszystko, część druga (SA2) Jest to naturalna kontynuacja, ponieważ ma natywne zastosowanie do wideo, a nie tylko do zdjęć; Chociaż możesz oczywiście uruchomić pierwszy model na każdej klatce wideo indywidualnie, nie jest to najbardziej wydajny proces.
„Naukowcy używają tych obiektów do badania raf koralowych, siedlisk przyrodniczych i tym podobnych” – powiedział Zuckerberg w rozmowie z dyrektorem generalnym Nvidii, Jensenem Huangiem. „Ale możliwość zrobienia tego na wideo, dokładnego uchwycenia i powiedzenia, czego chcesz, to prawda całkiem fajne.”
Przetwarzanie wideo jest oczywiście bardziej wymagające obliczeniowo, co świadczy o postępie poczynionym w całej branży w zakresie wydajności SA2, która może działać bez powodowania awarii centrum danych. Oczywiście jest to wciąż ogromny model i do działania potrzebuje potężnego sprzętu, ale szybka i elastyczna segmentacja była praktycznie niemożliwa jeszcze rok temu.
Model, podobnie jak pierwszy, będzie otwarty i darmowy, nie ma też mowy o wersji hostowanej, którą czasami oferują firmy zajmujące się sztuczną inteligencją. Ale istnieje bezpłatna wersja próbna.
Naturalnie taki model wymaga ogromnej ilości danych do wytrenowania, a Meta udostępniła także dużą i znakomitą bazę danych zawierającą 50 tysięcy filmów, które stworzyła specjalnie w tym celu. W artykule opisującym SA2 do szkolenia wykorzystano także inną bazę danych zawierającą ponad 100 tys. „wewnętrznie dostępnych” filmów, która jednak nie została upubliczniona – poprosiłem Meta o więcej informacji co to jest i dlaczego nie została upubliczniona. (Uważamy, że pochodzi z profili publicznych na Instagramie i Facebooku).
Meta od kilku lat jest pionierem „otwartej” sztucznej inteligencji, choć w rzeczywistości (jak powiedział Zuckerberg na czacie) robi to już od dłuższego czasu, korzystając z narzędzi takich jak PyTorch. Ale ostatnio LLaMa, Segment Everything i kilka innych modeli, które udostępniłem za darmo, choć ich „otwartość” jest tematem debaty, stały się stosunkowo dostępnym ograniczeniem wydajności sztucznej inteligencji w tych obszarach.
Zuckerberg wspomniał, że otwartość Meta nie wynika wyłącznie z dobroci, ale to nie znaczy, że ich intencje nie są czyste:
„To nie jest tylko oprogramowanie, które można zbudować — potrzebny jest wokół niego ekosystem. To oprogramowanie nie działałoby tak dobrze, gdybyśmy nie udostępnili mu oprogramowania typu open source, prawda? ponieważ jesteśmy ludźmi altruistycznymi, chociaż myślę, że to będzie dobre dla ekosystemu – robimy to, ponieważ wierzymy, że dzięki temu to, co zbudujemy, będzie najlepsze.”
Na pewno jednak zostanie dobrze wykorzystany. Odwiedź GitHub tutaj.
„Lekarz gier. Fanatyk zombie. Studio muzyczne. Kawiarni ninja. Miłośnik telewizji. Miły fanatyk alkoholik.