Procesory AMD EPYC 7002 Rome zawodzą po mniej niż 3 latach nieprzerwanej pracy

Procesory AMD EPYC 7002 Rome zawodzą po mniej niż 3 latach nieprzerwanej pracy

Obudowa AMD EPYC 7642
Obudowa AMD EPYC 7642

Dzięki czytelnikowi, który napisał w tym Post z Reddita Zostaliśmy powiadomieni, że rdzenie serii AMD EPYC 7002 „Rome” mogą przestać działać już po 3 latach bezawaryjnej pracy, czyli po około 1044 dniach. Chociaż w kreatorach występuje wiele błędów ze względu na ich złożoność, ten jest szczególnie interesujący.

Procesory AMD EPYC 7002 Rome zawodzą po mniej niż 3 latach nieprzerwanej pracy

To nie tylko spekulacje, to oficjalny format AMD Errata 1474 56323-PUB_1.01.005.

Description
A core will fail to exit CC6 after about 1044 days after the last system reset. The time of failure may vary depending on the spread spectrum and REFCLK frequency.
Potential Effect on System
A core will hang.
Suggested Workaround
Either disable CC6 or reboot system before the projected time of failure.
Fix Planned
No fix planned
(źródło: Przewodnik po wersjach AMD dla procesorów z rodziny AMD 17 godzin (30:00–3:00)

W przypadku większości naszych czytelników urządzenia od czasu do czasu uruchamiają się ponownie w celu wprowadzenia poprawek bezpieczeństwa lub innych okien konserwacyjnych. Jednocześnie jest to dość duży problem, ponieważ środek zaradczy skutecznie restartuje system.

Sprawdziliśmy laboratorium STH i wygląda na to, że mieliśmy już system HPE AMD EPYC 7002 Rome, o którym zapomnieliśmy przybyć po 2 latach i 261 dniach lub 991 dniach całkowitego czasu pracy z Proxmox VE przed wyłączeniem systemu. Powodem, dla którego system miał tak długi czas sprawności, był fakt, że był częścią projektu laboratoryjnego, który był poza naszymi normalnymi narzędziami do zarządzania i najwyraźniej zapomnieliśmy, że w ogóle istnieje.

ostatnie słowa

Jeśli typowy cykl życia serwera wynosi obecnie 5 lat, oznacza to, że aby uniknąć tego błędu, może być konieczne co najmniej jedno ponowne uruchomienie w ciągu jego życia, o ile to pojedyncze ponowne uruchomienie nastąpi między dniami 913 a 1044. Z drugiej strony, pewna liczba osób będzie myślę, że nasi czytelnicy byliby głupi, gdyby mieli regularne łatki bezpieczeństwa. Inni uważają, że ten błąd jest ogromnym problemem do wyśledzenia i poradzenia sobie z nim. Jeśli jesteś typem administratora, który ma serwer od około trzech lat, może to mieć na ciebie wpływ.

Być może przyszły tydzień powinien być poświęcony przyjrzeniu się starym układom AMD EPYC „Rome” i sprawdzeniu, czy istnieje więcej niż 900 dni bezawaryjnej pracy.

Halsey Andrews

„Lekarz gier. Fanatyk zombie. Studio muzyczne. Kawiarni ninja. Miłośnik telewizji. Miły fanatyk alkoholik.

Rekomendowane artykuły

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *