Ten artykuł AI proponuje model ukrytej dyfuzji dla 3D (LDM3D), który generuje zarówno dane obrazu, jak i mapy głębi z danego wektora tekstowego.

Ten artykuł AI proponuje model ukrytej dyfuzji dla 3D (LDM3D), który generuje zarówno dane obrazu, jak i mapy głębi z danego wektora tekstowego.
https://arxiv.org/abs/2305.10853

W dziedzinie generatywnej sztucznej inteligencji widzenie komputerowe poczyniło w ostatnich latach ogromne postępy. Firma Stable Diffusion przekształciła produkcję treści w tworzenie obrazów, oferując bezpłatne oprogramowanie do tworzenia losowych obrazów RGB o wysokiej rozdzielczości z monitów tekstowych. W artykule zaproponowano trójwymiarowy model rozproszenia utajonego (LDM3D) oparty na oprogramowaniu Stable Diffusion v1.4. W przeciwieństwie do poprzedniego modelu, rysunek 1 pokazuje, w jaki sposób LDM3D może tworzyć mapy głębi i dane obrazu z danego monitu tekstowego. Użytkownicy mogą tworzyć pełne reprezentacje RGBD monitów tekstowych, ożywiając je w żywej, 360-stopniowej perspektywie. Ich model LDM3D został zoptymalizowany na zbiorze danych obejmującym około 4 miliony zespołów, które obejmowały obraz RGB, mapę głębi i opis.

Do utworzenia tego zestawu danych wykorzystano część zestawu danych LAION-400M, dużego zbioru danych podpisów obrazów, zawierającego ponad 400 milionów par podpisów obrazów. Model szacowania dużej głębi DPT, który zapewnia bardzo dokładne szacunki względnej głębokości dla każdego piksela obrazu, został wykorzystany do wygenerowania map głębi używanych do precyzyjnego dostrajania. Korzystanie z odpowiednich map głębi było niezbędne do tworzenia realistycznych, wciągających widoków 360 stopni, które pozwalają użytkownikom na bardzo szczegółowe zapoznanie się z monitami tekstowymi. Badacze z Intel Labs i Blockade Labs stworzyli DepthFusion, aplikację, która wykorzystuje surowe obrazy 2D RGB i mapy głębi do obliczenia widoku 360 stopni za pomocą TouchDesigner, demonstrując możliwości LDM3D.

Rysunek 1: Omówienie LDM3D: 16-bitowe mapy głębi w skali szarości są kompresowane do 3-kanałowych obrazów głębi podobnych do RGB, które są następnie łączone z obrazami RGB wzdłuż wymiaru kanału, aby pokazać przebieg szkolenia. Zmodyfikowany KL-AE służy do mapowania serializowanego wejścia RGBD do przestrzeni utajonej. Ukryta reprezentacja odbiera szum, zanim zostanie wielokrotnie zniekształcona przez model U-Net. Koder zamrożonego tekstu CLIP jest używany do szyfrowania wektora tekstu, a wzajemne zainteresowanie jest wykorzystywane do mapowania go na różne warstwy U-Net. Dekoder KL odbiera odszumione dane wyjściowe z przestrzeni utajonej i mapuje je ponownie do przestrzeni pikseli jako sześciokanałowe wyjście RGBD. Wynik jest następnie dzielony na 16-bitową mapę głębi w skali szarości i obraz RGB. Ścieżka wnioskowania od tekstu do obrazu jest pokazana w niebieskiej ramce.

DepthFusion może całkowicie zmienić sposób interakcji ludzi z materiałami cyfrowymi. Elastyczny framework o nazwie TouchDesigner umożliwia tworzenie interaktywnych i wciągających doświadczeń multimedialnych. Ich oprogramowanie wykorzystuje kreatywne możliwości touchdesigner do tworzenia oszałamiających panoram 360 stopni, które wyraźnie przedstawiają podpowiedzi tekstowe. Z pomocą DepthFusion użytkownicy mogą teraz doświadczać podpowiedzi tekstowych w sposób wcześniej niewyobrażalny, niezależnie od tego, czy będzie to opis spokojnego lasu, tętniącego życiem miasta, czy świata science fiction. Ta technologia może zrewolucjonizować różne sektory, w tym gry, rozrywkę, projektowanie i architekturę.

W sumie wnieśli trzy różne wkłady. (1) proponują LDM3D, nowatorski model dyfuzji, który w świetle kierowanym tekstem generuje obrazy RGBD (obrazy RGB z dopasowanymi mapami głębi). (2) Zbudowali DepthFusion, oprogramowanie, które wykorzystuje obrazy RGBD generowane przez LDM3D, aby zapewnić wciągające wrażenia wizualne 360 ​​stopni. (3) Oceniają skuteczność wyprodukowanych przez siebie obrazów RGBD i wciągających filmów 360 stopni poprzez kompleksowe badania. Badanie przedstawia LDM3D, zaawansowany model dyfuzji, który tworzy obrazy RGBD z sygnałów tekstowych. Zbudowali także DepthFusion, oprogramowanie, które wykorzystuje obrazy RGBD wyprodukowane przez TouchDesigner, aby zapewnić wciągające i interaktywne wrażenia z oglądania 360 stopni, aby jeszcze bardziej zademonstrować możliwości LDM3D.

Wyniki tego badania mogą zasadniczo zmienić sposób interakcji ludzi z materiałami cyfrowymi, przekształcając wszystko, od rozrywki i gier po architekturę i projektowanie. Wkład tej pracy otwiera nowe możliwości dla generatywnej sztucznej inteligencji z wieloma wyświetlaczami i badań wizji komputerowej. Są zainteresowani dalszym rozwojem tego obszaru i chcą, aby społeczność skorzystała z oferowanych prac.


zeskanuj papier. Nie zapomnij dołączyć 21 000 + ML Sub RedditI kanał na discordzieI I Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres [email protected]

🚀 Sprawdź 100’s AI Tools w AI Tools Club

Anish Teeku jest stażystą konsultantem w MarktechPost. Obecnie kontynuuje studia licencjackie w zakresie nauki o danych i sztucznej inteligencji w Indyjskim Instytucie Technologii (IIT) w Bhilai. Większość czasu spędza pracując nad projektami mającymi na celu wykorzystanie mocy uczenia maszynowego. Jego zainteresowania badawcze dotyczą przetwarzania obrazu i pasjonuje go budowanie wokół niego rozwiązań. Lubi kontakt z ludźmi i współpracę przy ciekawych projektach.

Halsey Andrews

„Lekarz gier. Fanatyk zombie. Studio muzyczne. Kawiarni ninja. Miłośnik telewizji. Miły fanatyk alkoholik.

Rekomendowane artykuły

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *