Big Blue był jednym z projektantów systemów, który wcześnie wychwycił błąd akceleratora i stanowczo zadeklarował, że na dłuższą metę wszystkie rodzaje obliczeń o wysokiej wydajności będą miały jakieś przyspieszenie. To jest rodzaj wyspecjalizowanego układu ASIC, w którym procesor wykonuje matematyczne odciążenie.
Być może IBM ponownie wyciąga wnioski z tej wczesnej ery HPC półtorej dekady temu, kiedy stworzył akcelerator matematyki wektorowej PowerXCell i użył go w superkomputerze „Roadrunner” obsługującym petaflopy w Los Alamos National Laboratory. te lekcje dla współczesnej epoki sztucznej inteligencji.
Można mieć nadzieję, że przynajmniej po to, aby utrzymać zainteresowanie na arenie AI, firma potraktuje się poważnie przynajmniej w jakimś rodzaju HPC (którym z pewnością jest szkolenie AI), jak wydaje się być jej ramię badawcze IBM. Robisz to z nowym modułem akceleracji AI, który zaprezentowałeś.
Niewiele szczegółów kryjących się za AIU IBM Research zostało ujawnionych i jak dotąd jedyną rzeczą, jaką ktokolwiek ma, jest historia macierzy IBM i jednostek matematycznych wektorowych (które wcale nie są luźne obliczeniowo) oraz ich wykorzystanie mieszanej precyzji i Post na blogu mówiący konkretnie o AIU przejść.
AIU zaprezentowane przez IBM Research będzie oparte na procesie 5 nm i podobno wyprodukowane przez firmę Samsung, która jest partnerem IBM w produkcji 7-nanometrowych procesorów „Cirrus” Power10 dla serwerów korporacyjnych i procesorów Telum System z16 dla komputerów mainframe. Chipy Power10 zawierają bardzo wydajne moduły matematyczne macierzowe i wektorowe, które są ewolucją projektów używanych przez IBM od dziesięcioleci, ale chip Telum wykorzystuje heurystykę AI Core AI Core trzeciej generacji firmy IBM Research jako heurystykę AI i szkolenie AI na chipie akcelerator o niskiej rozdzielczości.
The Pierwszy chip AI Core ogłoszony w 2018 roku Był w stanie wykonać matematykę z połówkową dokładnością FP16 i akumulacją pojedynczej precyzji FP32 i odegrał kluczową rolę w pracach IBM nad wprowadzeniem Jeszcze mniej dokładne dane i przetwarzanie dla sieci neuronowych. Po utworzeniu akceleratora AI dla procesora Telum z16, Które opisaliśmy tutaj w sierpniu 2021 r.Firma IBM Research wykorzystała ten akcelerator AI jako element konstrukcyjny i przeskalowała go na jednym urządzeniu.
Przyjrzyjmy się akceleratorowi AI na chipie Telum przed wejściem do nowego AIU.
Na chipie z16 akcelerator AI składa się ze 128 kawałków procesora, prawdopodobnie ułożonych w konfiguracji fazowej 2D o wymiarach 4 x 4 x 8, ale IBM nie jest tego jasny. Ta macierz skurczowa obsługuje matematykę macierzy FP16 (i zmiennych o mieszanej precyzji) na akumulacyjnych jednostkach zmiennoprzecinkowych FP32. Zostało to wyraźnie zaprojektowane, aby wspierać matematykę macierzową i splotową w uczeniu maszynowym — w tym nie tylko wnioskowanie, ale także szkolenie o niskiej wierności, które, jak przewiduje IBM, może mieć miejsce na platformach korporacyjnych. Uważamy, że może również obsługiwać format ćwierćprecyzyjny FP8 do szkolenia i wnioskowania AI, oprócz INT2 i INT4 do wnioskowania AI, które widzimy w Eksperymentalny czterordzeniowy układ AI Core zaprezentowany przez IBM Research w styczniu 2021 r. Do urządzeń kompaktowych i przenośnych. Akcelerator CPU AI firmy Telum zawiera również 32 złożone funkcje (CF), które obsługują instrukcje SIMD FP16 i FP32 i są zoptymalizowane pod kątem funkcji aktywacji i złożonych operacji. Lista obsługiwanych funkcji specjalnych obejmuje:
- Aktywuj LSTM
- GRU .aktywacja
- Mnożenie macierzy stopionej, błąd odniesienia
- podwójnie stopiona matryca (nadawanie/nadawanie)
- Normalizacja partii
- Połączony skręt, dodatek Bias, Relu
- Maksymalna pula 2 dni
- Średnia pula 2D
- Miękki Max
- Prawdziwy
- Thanh
- esicy
- Dodać
- oferta lub rabat
- zwielokrotniać
- przeklina
- minuta
- powyższe
- Zarejestruj się
Jednostka prefetch i rewrite są dołączone do pętli łącza rdzenia z16 i pamięci podręcznej L2, a także do notatnika, który z kolei łączy się z rdzeniem AI poprzez jednostkę transferu danych i koordynacji, która jak sama nazwa wskazuje formatuje dane tak możesz przejść przez jednostkę matematyczną Matrix, aby wykonać wnioskowanie i uzyskać wynik. Wstępne pobieranie może odczytywać dane z płyty pamięci z prędkością ponad 120 GB/s i przechowywać dane na płycie z prędkością ponad 80 GB/s; Silnik danych może pobierać i przesyłać dane z centrów PT i CF do modułu AI z prędkością 600 Gb/s.
na żelaznym systemie z16Platforma Snap ML firmy IBM i platforma ONNX Microsoft Azure są w fazie produkcji, a platforma TensorFlow firmy Google jest niedawno w fazie otwartej wersji beta przez dwa miesiące.
Teraz wyobraź sobie, że skopiowałeś ten akcelerator AI z chipa Telum i wkleiłeś go do projektu 34 razy, w ten sposób:
Te 34 rdzenie i ich regiony nierdzeniowe do przechowywania, rdzenie łączące i system zewnętrzny mają łącznie 23 miliardy tranzystorów. (IBM twierdzi, że w AIU są 32 rdzenie, ale wyraźnie widać 34 rdzenie, więc uważamy, że dwa z nich są tam, aby zwiększyć przepustowość chipów na maszynach z 32 użytecznymi rdzeniami.)
Procesory Telum z16 ważą 5 GHz, ale AIU prawdopodobnie nie będzie działać w pobliżu tej prędkości.
Jeśli spojrzysz na szablon AIU, ma on szesnaście pewnego rodzaju kontrolerów I/O, które prawdopodobnie są typowymi SerDes, które mogą być używane do pamięci lub I/O (tak jak IBM zrobił z ich interfejsami OpenCAPI dla I/O i pamięci w Układ Power10). Wydaje się być Osiem banków pamięci Samsung LPDDR5 Również w pakiecie byłoby to łącznie 48 GB pamięci i zapewniałoby około 43 GB/s całkowitej przepustowości. Jeśli są to wszystkie kontrolery pamięci, pamięć można podwoić do 96 GB/si całkowitej przepustowości 86 GB/s.
Zespół kontrolera na górze matrycy AIU jest prawdopodobnie kontrolerem PCI-Express 4.0, ale miejmy nadzieję, że kontrolerem PCI-Express 5.0 z wbudowaną obsługą protokołu CXL.
IBM nie powiedział, jakiej wydajności można się spodziewać po AIU, ale możemy się domyślać. W styczniu 2021 r. Czterordzeniowy układ AI Core zadebiutował na chipsecie ISSCC, wyryty przez Samsunga przy 7 nm, który zapewnił 25,6 teraflopów treningu FP8 i 102,4 teraflopów wnioskowania INT4 działającego z częstotliwością 1,6 GHz. Ten testowy układ ma moc 48,6 W i ma 8 MB pamięci podręcznej w układzie.
Ten AIU ma 34 rdzenie, z których 32 są aktywne, więc jego wydajność powinna być 8X, zakładając, że prędkość zegara pozostanie taka sama (cokolwiek to jest) i 8X pamięć podręczna na chipie. Będzie to działać przy 204,8 teraflopach do treningu AI w FP8 i 819.2 teraflopach do wnioskowania AI z 64 MB pamięci podręcznej na chipie, w czymś na południe od koperty mocy 400 W po zaimplementowaniu przy 7 nm. Ale IBM wdraża go z Samsungiem przy 5 nm, co prawdopodobnie daje AIU około 275 W.
Dla porównania, 350-watowa wersja karty graficznej „Hopper” GH100 firmy Nvidia PCI-Express 5.0 zapewnia przepustowość 2 TB/s ponad 80 GB pamięci HBM3 i 3,03 petaflopsa wydajności treningu FP8 AI z rzadkim wsparciem.
IBM Research będzie potrzebował rdzeni AI. Wiele rdzeni AI.