CrowdStrike publikuje analizę głównych przyczyn globalnego upadku Microsoftu

CrowdStrike publikuje analizę głównych przyczyn globalnego upadku Microsoftu

Monitory odlotów pokazują odwołane i opóźnione loty na krajowym lotnisku im. Ronalda Reagana w Waszyngtonie 19 lipca 2024 r. w Arlington w Wirginii podczas poważnej awarii systemów komputerowych na całym świecie.
zdjęcie: AFP/Mandel Ngan

Autor: Annika Burgess dla ABC

Eksperci twierdzą, że CrowdStrike będzie „głęboko zawstydzony” po opublikowaniu analizy przyczyn źródłowych (RCA) wadliwej aktualizacji oprogramowania, która doprowadziła do największej w historii globalnej awarii IT.

Ostatecznie był to po prostu błąd, którego studenci pierwszego roku programowania uczą się, jak unikać.

W piątek 19 lipca, kiedy pojawił się fatalny niebieski ekran śmierci (BSOD), około 8,5 miliona systemów operacyjnych Windows na całym świecie uległo awarii w wyniku poważnego błędu w aktualizacji czujnika Falcon firmy CrowdStrike.

Amerykańska firma zajmująca się cyberbezpieczeństwem opublikowała wstępny raport kilka dni po incydencie.

Teraz bardziej dogłębna, 12-stronicowa analiza potwierdziła przyczynę – pojedynczy czujnik, który pozostał niewykryty.

Dostęp premium Falcona

CrowdStrike oferuje produkty chroniące przed oprogramowaniem ransomware i złośliwym oprogramowaniem oraz produkty zabezpieczające w Internecie niemal wyłącznie dla dużych firm i organizacji.

Powszechną awarię powiązano z oprogramowaniem czujnika Falcon, które zostało zainstalowane w celu skanowania w poszukiwaniu zagrożeń i pomagania w ich eliminowaniu.

Siggy Judd, profesor systemów informatycznych na Australijskim Uniwersytecie Narodowym, powiedziała, że ​​Falcon ma bardzo specjalny dostęp.

Znajduje się na tak zwanym poziomie jądra systemu operacyjnego Windows.

„Umieszczony jest jak najbliżej silnika napędzającego system operacyjny” – powiedział profesor Judd.

„Tryb jądra stale monitoruje to, co robisz i nasłuchuje żądań z używanych aplikacji, obsługując je w sposób, który wydaje ci się płynny”.

Opisał pozycję jądra jako policjanta drogowego z siedzącym obok Sokołem, mówiąc: „Nie podoba mi się wygląd tego pojazdu. Powinniśmy się temu przyjrzeć”.

Winowajny jest czujnik 21

CrowdStrike stale aktualizuje Falcona.

19 lipca firma wysłała aktualizację zawartości QR do niektórych hostów Windows.

W RCA firma CrowdStrike nazwała to „incydentem na kanale 291”, podczas którego w czujnikach Falcona wprowadzono nową funkcję.

Profesor Judd stwierdziła, że ​​czujniki działają jak „ślad dowodów”, informując ją, jakiego rodzaju podejrzanej aktywności należy szukać.

„Falcon patrzy na kilka czujników – kilka wskaźników – aby sprawdzić, czy coś jest nie tak” – powiedział.

Po wysłaniu aktualizacji zmienia się lokalizacja lub liczba czujników, aby sprawdzić, czy nie doszło do możliwego ataku.

W tym przypadku Falcon oczekiwał, że aktualizacja będzie zawierać 20 pól wejściowych, ale zawierała 21 pól wejściowych.

CrowdStrike stwierdził, że przyczyną globalnego załamania była „niezgodność liczbowa”.

„Interpretator treści oczekuje tylko 20 wartości” – stwierdza raport RCA.

„Dlatego próba dostępu do wartości 21 spowodowała odczyt pamięci poza dopuszczalnym zakresem poza końcem zestawu danych wejściowych, co spowodowało awarię systemu”.

Ponieważ Falcon jest ściśle zintegrowany z rdzeniem systemu Windows, w przypadku awarii zamykał cały system, powodując niebieski ekran śmierci (BSOD).

Profesor Judd powiedział, że najczęstszymi sposobami włamania się do systemu jest zalewanie pamięci.

Zasadniczo mówisz komputerowi, aby szukał czegoś „poza zakresem”.

„Szukał czegoś, co nie istniało” – powiedział.

„Ale Falcon musiał przyjrzeć się 21. pozycji, ponieważ tak mu kazano zrobić w nowym szablonie, który otrzymał”.

Jak to mogło się stać?

CrowdStrike przeprosił za niepowodzenie, w wyniku którego jego dyrektor generalny, George Kurtz, został wezwany do złożenia zeznań przed Kongresem USA w celu wyjaśnienia, co się stało.

READ  Zgubiłeś swój bagaż? Wideo pokazuje setki toreb czekających na lotnisku w Auckland

„Wykorzystujemy wnioski wyciągnięte z tego incydentu, aby lepiej służyć naszym klientom” – oznajmił Kurtz w wydanym w tym tygodniu oświadczeniu.

„W tym celu podjęliśmy już zdecydowane kroki, aby zapobiec ponownemu wystąpieniu tej sytuacji i zapewnić, że my – i Ty – stajemy się bardziej odporni”.

Procesy zapewnienia jakości (QA) CrowdStrike zostały zakwestionowane.

Firma stwierdziła, że ​​aktualizacje „przechodzą kompleksowy proces zapewnienia jakości, który obejmuje testy automatyczne, testy ręczne, walidację i etapy wdrażania”.

Jednak treść QR, która została wykorzystana w tym przypadku, przechodzi inny proces.

W raporcie CrowdStrike przyznał, że „brak szczegółowych testów pod kątem kryteriów dopasowania niezgodnego z dopasowaniem w 21. polu” przyczynił się do „zbiegu tych problemów, które doprowadziły do ​​​​awarii systemu”.

Toby Murray, profesor nadzwyczajny w Szkole Informatyki i Systemów Informatycznych na Uniwersytecie w Melbourne, powiedział, że „aktualizacja podejrzanego pliku danych” była „zawstydzająca”.

Powiedział, że nawet podstawowe kontrole przeprowadzone przez programistę wystarczyły, aby wykryć problem.

Dodał dla ABC: „To niezwykle podstawowa i fundamentalna sprzeczność, która zawsze, wcześniej czy później, zawsze prowadziła do katastrofalnych problemów”.

„Fakt, że programiści CrowdStrike byli w stanie znaleźć tę oczywistą rozbieżność między formatem pliku danych a kodem oprogramowania, oznacza, że ​​nawet najbardziej podstawowe formy kontroli i zapewnienia jakości nie zostały wykonane prawidłowo”.

Profesor Judd powiedział, że tego rodzaju błąd nie powinien mieć miejsca.

Powiedział, że aktualizacja powinna zostać wypuszczona etapami.

„Kiedy pisali ten raport, musieli być bardzo zawstydzeni” – powiedział.

„Studenci pierwszego roku programowania poznają „stos”, czyli serię instrukcji, które należy wykonać na jednostce centralnej (CPU).

CrowdStrike ogłosił, że zawarł umowę z dwoma niezależnymi dostawcami oprogramowania zabezpieczającego w celu dodatkowego sprawdzenia kodu czujnika Falcon pod kątem bezpieczeństwa i zapewnienia jakości.

Wzywa do odpowiedzialności

W następstwie awarii organy regulacyjne i firmy zaczęły rozważać konsekwencje prawne.

READ  Dlaczego ACCC wstrzymało śledztwo w sprawie Holdena?

Wypadek spowodował chaos na lotniskach, przestały działać automaty płatnicze w głównych sklepach, a media miały trudności z przekazaniem Państwu tej wiadomości.

Długie kolejki do stanowisk odprawy w hali odlotów nr 1 na lotnisku Schiphol.  Lotnisko boryka się z problemami ze względu na poważną awarię komputerów na całym świecie i twierdzi, że awaria może mieć wpływ na loty do i z lotniska.

Długie kolejki przed stanowiskami odpraw w hali odlotów 1 na lotnisku Schiphol w Amsterdamie w czasie kryzysu.
zdjęcie: Sima van der Waala/AFP

W samej Australii wpływ na przedsiębiorstwa oszacowano na ponad 1 miliard dolarów australijskich (1,08 miliarda dolarów nowozelandzkich).

Dyrektor generalny Australian Industry Group, Innes Willox, powiedział programowi ABC The Business, że spodziewa się, że rachunki za szkody spowodowane zakłóceniami sięgną miliardów dolarów.

Powiedział jednak, że nadal nie jest jasne, czy dotknięte przedsiębiorstwa będą mogły ubiegać się o odszkodowanie od CrowdStrike za wszelkie straty poniesione w wyniku przestojów.

Amerykański przewoźnik Delta Air Lines powiedział w zeszłym tygodniu, że awaria kosztowała firmę 500 mln dolarów (834 mln dolarów nowozelandzkich) i że planuje podjąć działania prawne w celu uzyskania odszkodowania od firmy zajmującej się cyberbezpieczeństwem.

CrowdStrike odrzucił ten zarzut, stwierdzając w piśmie od zewnętrznego prawnika, że ​​jest „głęboko rozczarowany sugestią firmy Delta, jakoby CrowdStrike zachował się niewłaściwie i zdecydowanie odrzuca wszelkie zarzuty, że dopuścił się on rażącego zaniedbania lub niewłaściwego postępowania”.

Delta odwołała ponad 6 000 lotów w ciągu sześciu dni, co odbiło się na ponad 500 000 pasażerów.

Firmie grozi dochodzenie prowadzone przez Departament Transportu Stanów Zjednoczonych w celu ustalenia, dlaczego naprawa sytuacji po przestoju trwała tak dużo dłużej niż innym liniom lotniczym.

Ta historia została po raz pierwszy opublikowana przez B C.

Phoebe Newman

"Podróżujący ninja. Rozrabiaka. Badacz bekonów. Ekspert od ekstremalnych alkoholi. Obrońca zombie."

Rekomendowane artykuły

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *