Byłoby lepiej, gdyby to nie był tylko projekt naukowy

Big Blue był jednym z projektantów systemów, który wcześnie wychwycił błąd akceleratora i stanowczo zadeklarował, że na dłuższą metę wszystkie rodzaje obliczeń o wysokiej wydajności będą miały jakieś przyspieszenie. To jest rodzaj wyspecjalizowanego układu ASIC, w którym procesor wykonuje matematyczne odciążenie.

Być może IBM ponownie wyciąga wnioski z tej wczesnej ery HPC półtorej dekady temu, kiedy stworzył akcelerator matematyki wektorowej PowerXCell i użył go w superkomputerze „Roadrunner” obsługującym petaflopy w Los Alamos National Laboratory. te lekcje dla współczesnej epoki sztucznej inteligencji.

Można mieć nadzieję, że przynajmniej po to, aby utrzymać zainteresowanie na arenie AI, firma potraktuje się poważnie przynajmniej w jakimś rodzaju HPC (którym z pewnością jest szkolenie AI), jak wydaje się być jej ramię badawcze IBM. Robisz to z nowym modułem akceleracji AI, który zaprezentowałeś.

Niewiele szczegółów kryjących się za AIU IBM Research zostało ujawnionych i jak dotąd jedyną rzeczą, jaką ktokolwiek ma, jest historia macierzy IBM i jednostek matematycznych wektorowych (które wcale nie są luźne obliczeniowo) oraz ich wykorzystanie mieszanej precyzji i Post na blogu mówiący konkretnie o AIU przejść.

AIU zaprezentowane przez IBM Research będzie oparte na procesie 5 nm i podobno wyprodukowane przez firmę Samsung, która jest partnerem IBM w produkcji 7-nanometrowych procesorów „Cirrus” Power10 dla serwerów korporacyjnych i procesorów Telum System z16 dla komputerów mainframe. Chipy Power10 zawierają bardzo wydajne moduły matematyczne macierzowe i wektorowe, które są ewolucją projektów używanych przez IBM od dziesięcioleci, ale chip Telum wykorzystuje heurystykę AI Core AI Core trzeciej generacji firmy IBM Research jako heurystykę AI i szkolenie AI na chipie akcelerator o niskiej rozdzielczości.

The Pierwszy chip AI Core ogłoszony w 2018 roku Był w stanie wykonać matematykę z połówkową dokładnością FP16 i akumulacją pojedynczej precyzji FP32 i odegrał kluczową rolę w pracach IBM nad wprowadzeniem Jeszcze mniej dokładne dane i przetwarzanie dla sieci neuronowych. Po utworzeniu akceleratora AI dla procesora Telum z16, Które opisaliśmy tutaj w sierpniu 2021 r.Firma IBM Research wykorzystała ten akcelerator AI jako element konstrukcyjny i przeskalowała go na jednym urządzeniu.

Przyjrzyjmy się akceleratorowi AI na chipie Telum przed wejściem do nowego AIU.

Na chipie z16 akcelerator AI składa się ze 128 kawałków procesora, prawdopodobnie ułożonych w konfiguracji fazowej 2D o wymiarach 4 x 4 x 8, ale IBM nie jest tego jasny. Ta macierz skurczowa obsługuje matematykę macierzy FP16 (i zmiennych o mieszanej precyzji) na akumulacyjnych jednostkach zmiennoprzecinkowych FP32. Zostało to wyraźnie zaprojektowane, aby wspierać matematykę macierzową i splotową w uczeniu maszynowym — w tym nie tylko wnioskowanie, ale także szkolenie o niskiej wierności, które, jak przewiduje IBM, może mieć miejsce na platformach korporacyjnych. Uważamy, że może również obsługiwać format ćwierćprecyzyjny FP8 do szkolenia i wnioskowania AI, oprócz INT2 i INT4 do wnioskowania AI, które widzimy w Eksperymentalny czterordzeniowy układ AI Core zaprezentowany przez IBM Research w styczniu 2021 r. Do urządzeń kompaktowych i przenośnych. Akcelerator CPU AI firmy Telum zawiera również 32 złożone funkcje (CF), które obsługują instrukcje SIMD FP16 i FP32 i są zoptymalizowane pod kątem funkcji aktywacji i złożonych operacji. Lista obsługiwanych funkcji specjalnych obejmuje:

Aktywuj LSTM
GRU .aktywacja
Mnożenie macierzy stopionej, błąd odniesienia
podwójnie stopiona matryca (nadawanie/nadawanie)
Normalizacja partii
Połączony skręt, dodatek Bias, Relu
Maksymalna pula 2 dni
Średnia pula 2D
Miękki Max
Prawdziwy
Thanh
esicy
Dodać
oferta lub rabat
zwielokrotniać
przeklina
minuta
powyższe
Zarejestruj się

Jednostka prefetch i rewrite są dołączone do pętli łącza rdzenia z16 i pamięci podręcznej L2, a także do notatnika, który z kolei łączy się z rdzeniem AI poprzez jednostkę transferu danych i koordynacji, która jak sama nazwa wskazuje formatuje dane tak możesz przejść przez jednostkę matematyczną Matrix, aby wykonać wnioskowanie i uzyskać wynik. Wstępne pobieranie może odczytywać dane z płyty pamięci z prędkością ponad 120 GB/s i przechowywać dane na płycie z prędkością ponad 80 GB/s; Silnik danych może pobierać i przesyłać dane z centrów PT i CF do modułu AI z prędkością 600 Gb/s.

na żelaznym systemie z16Platforma Snap ML firmy IBM i platforma ONNX Microsoft Azure są w fazie produkcji, a platforma TensorFlow firmy Google jest niedawno w fazie otwartej wersji beta przez dwa miesiące.

Teraz wyobraź sobie, że skopiowałeś ten akcelerator AI z chipa Telum i wkleiłeś go do projektu 34 razy, w ten sposób:

Te 34 rdzenie i ich regiony nierdzeniowe do przechowywania, rdzenie łączące i system zewnętrzny mają łącznie 23 miliardy tranzystorów. (IBM twierdzi, że w AIU są 32 rdzenie, ale wyraźnie widać 34 rdzenie, więc uważamy, że dwa z nich są tam, aby zwiększyć przepustowość chipów na maszynach z 32 użytecznymi rdzeniami.)

Procesory Telum z16 ważą 5 GHz, ale AIU prawdopodobnie nie będzie działać w pobliżu tej prędkości.

Jeśli spojrzysz na szablon AIU, ma on szesnaście pewnego rodzaju kontrolerów I/O, które prawdopodobnie są typowymi SerDes, które mogą być używane do pamięci lub I/O (tak jak IBM zrobił z ich interfejsami OpenCAPI dla I/O i pamięci w Układ Power10). Wydaje się być Osiem banków pamięci Samsung LPDDR5 Również w pakiecie byłoby to łącznie 48 GB pamięci i zapewniałoby około 43 GB/s całkowitej przepustowości. Jeśli są to wszystkie kontrolery pamięci, pamięć można podwoić do 96 GB/si całkowitej przepustowości 86 GB/s.

Zespół kontrolera na górze matrycy AIU jest prawdopodobnie kontrolerem PCI-Express 4.0, ale miejmy nadzieję, że kontrolerem PCI-Express 5.0 z wbudowaną obsługą protokołu CXL.

IBM nie powiedział, jakiej wydajności można się spodziewać po AIU, ale możemy się domyślać. W styczniu 2021 r. Czterordzeniowy układ AI Core zadebiutował na chipsecie ISSCC, wyryty przez Samsunga przy 7 nm, który zapewnił 25,6 teraflopów treningu FP8 i 102,4 teraflopów wnioskowania INT4 działającego z częstotliwością 1,6 GHz. Ten testowy układ ma moc 48,6 W i ma 8 MB pamięci podręcznej w układzie.

Ten AIU ma 34 rdzenie, z których 32 są aktywne, więc jego wydajność powinna być 8X, zakładając, że prędkość zegara pozostanie taka sama (cokolwiek to jest) i 8X pamięć podręczna na chipie. Będzie to działać przy 204,8 teraflopach do treningu AI w FP8 i 819.2 teraflopach do wnioskowania AI z 64 MB pamięci podręcznej na chipie, w czymś na południe od koperty mocy 400 W po zaimplementowaniu przy 7 nm. Ale IBM wdraża go z Samsungiem przy 5 nm, co prawdopodobnie daje AIU około 275 W.

Dla porównania, 350-watowa wersja karty graficznej „Hopper” GH100 firmy Nvidia PCI-Express 5.0 zapewnia przepustowość 2 TB/s ponad 80 GB pamięci HBM3 i 3,03 petaflopsa wydajności treningu FP8 AI z rzadkim wsparciem.

IBM Research będzie potrzebował rdzeni AI. Wiele rdzeni AI.

Przeglądaj najciekawsze momenty, analizy i historie z tygodnia prosto od nas do swojej skrzynki odbiorczej bez żadnych przerw.
Zapisz się teraz

Byłoby lepiej, gdyby to nie był tylko projekt naukowy

Subskrypcja newslettera

Halsey Andrews

Rekomendowane artykuły

Najnowsza rewolucyjna technologia aparatu iPhone’a firmy Apple jest oszałamiająca

Czy niesamowite mierniki wycieków mogą być prawdziwe?

Apple wyda aktualizację iOS 16 w przyszłym tygodniu z naprawieniem zbędnych monitów kopiowania i wklejania oraz problemów z iPhonem 14 Pro

Dodaj komentarz Anuluj pisanie odpowiedzi