Wykrywaj awarie dysków SSD za pomocą zaawansowanych poleceń SMART

Technologia SMART umożliwia przewidywanie awarii dysków SSD/HDD poprzez odczytywanie krytycznych atrybutów i przeprowadzanie krótkich i długich autotestów.
Systemy Windows, macOS i Linux oferują natywne metody i aplikacje (CrystalDiskInfo, GSmartControl) służące do sprawdzania stanu i temperatury.
Technologia SMART nie obejmuje wszystkich awarii: łączy monitorowanie z tworzeniem kopii zapasowych, redundancją i planowanymi wymianami.

Wykrywaj usterki na dysku SSD za pomocą poleceń SMART

Jeśli martwisz się o stan swojego magazynu, jesteś we właściwym miejscu: dzięki Technologia SMART Możesz przewidzieć krytyczne awarie dysków SSD i HDD i na czas zapisać swoje dane. Ten artykuł to wyjaśnia. Jak wykrywać usterki dysku SSD za pomocą poleceń SMART.

Oprócz czystej ciekawości, kluczowe jest monitorowanie stanu dysku. zagwarantować dostępność informacji i zaplanuj pojemność i wydajność. Nieoczekiwana awaria dysku twardego może zakłócić działanie usług, zaszkodzić Twojej reputacji i narazić Cię na straty. I chociaż dysk SSD nie wydaje takich dźwięków jak dysk twardy, to objawy jego występowania są następujące: spadki prędkości, błędy w pisaniu lub utrata danych spowodowana zużyciem ogniwa.

Czym jest SMART i co może (a czego nie może) zrobić

SMART to skrót od Technologia samodzielnego monitorowania, analizy i raportowaniaSeria procedur w oprogramowaniu układowym monitoruje wewnętrzne zmienne dysku i generuje ostrzeżenia w przypadku wykrycia ryzyka awarii. Ich cel jest jasny: dać Ci czas na wykonanie kopii zapasowej danych i wymianę dysku przed wystąpieniem awarii.

Aby z niego skorzystać, konieczne jest, aby płyta główna (BIOS/UEFI) Sam napęd obsługuje technologię SMART i ma ją włączoną. Obecnie jest ona praktycznie uniwersalna w SATA, SAS, SCSI i NVMe, a nowoczesne systemy operacyjne bez problemu się z nią komunikują.

Do mierzonych parametrów zalicza się m.in.: temperatura, ponownie przypisane sektory, błędy CRCCzas rozruchu silnika, nienaprawialne błędy odczytu/zapisu, liczba oczekujących sektorów, szybkość wyszukiwania i dziesiątki innych atrybutów. Każdy producent definiuje i standaryzuje swoje tabele, określając progi i dopuszczalne wartości.

Ważne: SMART nie wykonuje żadnych magicznych sztuczek. On tylko ostrzega. przewidywalne awarie (zużycie, postępujące problemy mechaniczne, degradacja bloków NAND). Nie można przewidzieć nagłe wydarzenia takich jak przepięcia lub nagłe uszkodzenia elektroniczne. Badania, takie jak te przeprowadzone przez Google i Backblaze, pokazują, że niektóre funkcje są przydatne, ale Nie obejmują one 100% awarii.

Wykrywaj awarie dysków SSD za pomocą poleceń SMART

Linux: smartmontools, polecenia klawiszowe i testy

W systemie Linux pakiet smartmontools składa się z dwóch części: smartctl (narzędzie konsoli do zapytań i testów) i mądry (demon, który monitoruje i wysyła alerty za pośrednictwem syslogu lub poczty e-mail). Jest darmowy i kompatybilny z SATA, SCSI, SAS i NVMe.

Instalacja (przykład Debian/Ubuntu): sudo apt install smartmontoolsW innych dystrybucjach używa odpowiedniego menedżera; dostępność w systemach Linux i BSD jest powszechna i Nie powinno to sprawić Ci żadnych problemów..

Ekskluzywna zawartość — kliknij tutaj Jak podłączyć czujnik temperatury LM35?

Najpierw zlokalizuj jednostki. Możesz utworzyć listę zespołów za pomocą df -h lub zidentyfikuj dyski i partycje za pomocą sudo fdisk -lPamiętaj: smartctl działa na urządzeniu, a nie na partycji, czyli na /dev/sdX lub /dev/nvmeXnY.

Podstawowe polecenia dla smartctl zaczynać aby pracować ze SMART na konkretnym dysku:

Sprawdź wsparcie i status SMART: sudo smartctl -i /dev/sda
Aktywuj SMART Jeżeli jest wyłączona: sudo smartctl -s on /dev/sda
Wyświetl wszystkie atrybuty i dzienniki: sudo smartctl -a /dev/sda
Krótki autotest (szybko): sudo smartctl -t short /dev/sda
Długi autotest (wyczerpujący): sudo smartctl -t long /dev/sda
Podsumowanie stanu zdrowia: sudo smartctl -H /dev/sda

Zaplanuj krótki test co tydzień i długi test co miesiąc za pomocą cron minimalizuj wpływ i posiadaj dane historycznePrzeprowadzaj testy wczesnym rankiem lub w okresach niskiego obciążenia; podczas długiego testu zauważysz zwiększone opóźnienie i spadek IOPS.

Konwencje nazewnictwa urządzeń w systemie Linux

W zależności od kontrolera i interfejsu zobaczysz różne ścieżki. Oto kilka typowych przykładów rozpoznawania napędów i kontrolerów: /dev/sd, /dev/nvmen, /dev/sg*Oprócz konkretnych tras na kontrolerach 3ware lub HP (cciss/hpsa) zrozumienie dokładnej trasy zapobiega przeanalizuj nieprawidłowe urządzenie.

Typowe błędy i logi (ATA/SCSI/NVMe)

SMART zapisuje logi ostatnich błędów i wyświetla je w formie zdekodowanej. ATA Zobaczysz pięć ostatnich błędów wraz ze statusami i kodami; SCSI Wyświetlane są liczniki błędów odczytu, zapisu i weryfikacji; NVMe Drukowane są wpisy dziennika błędów (domyślnie 16 najnowszych).

Popularne skróty w wynikach błędów (przydatne do szybkiej diagnozy): ABRT, AMNF, CCTO, EOM, ICRC, IDNF, MC, MCR, NM, TK0NF, UNC, WPJeżeli pojawiają się wielokrotnie, istnieje problem fizyczny lub z połączeniem zbadać.

Ważne jest również określenie krytycznych atrybutów według identyfikatora, które często korelują z nadchodzącymi awariami: 05, 10, 183, 184, 188, 196, 197, 198, 201, 230Stały wzrost któregokolwiek z nich jest złym znakiem.

Atrybuty SMART: jak je odczytywać i na które zwracać uwagę

Programy wyświetlają każdy parametr w kilku polach. Zwykle zawiera on Identyfikator (1-250), Próg, Wartość, Najgorsze i Surowe dane, oprócz flag (czy to krytyczne, statystyczne, itp.). Znormalizowana wartość zaczyna się od wysokiej i zmniejsza się wraz z użytkowaniemPrzekroczenie progu powoduje aktywację ostrzeżenia.

Do najbardziej przydatnych atrybutów służących do wykrywania zużycia lub uszkodzeń zalicza się: Przeniesiony_Sektor_Ct (przeniesione sektory), Bieżący_Oczekujący_Sektor (niestabilne sektory oczekujące), Offline_Niepoprawny (błędy nie podlegające korekcie offline), Liczba_przeniesionych_zdarzeń (wydarzenia związane z ponownym przypisaniem) i na dysku twardym, Spin_Retry_Count (ponowne próby uruchomienia silnika). Dotyczy to dysków SSD. Liczba wyrównywania zużycia y Błędy programowania/kasowania.

Ekskluzywna zawartość — kliknij tutaj Jak przekonwertować MBR na UEFI w systemie Windows 11 bez utraty danych

Temperatura jest kontrowersyjna, ale utrzymanie jednostki poniżej 60 °C Zmniejsza to prawdopodobieństwo wystąpienia błędów. Sprawdź przepływ powietrza w obudowie i, jeśli to konieczne, dodaj radiatory NVMe do dysków M.2. unikaj dławienia i degradacji.

sprawdź dysk

Windows: WMIC, PowerShell i CHKDSK

Aby szybko sprawdzić systemy Windows, możesz użyć klasycznej konsoli z WMIC lub PowerShell, bez instalowania żadnych dodatkowych elementów, a następnie, jeśli to konieczne, uzupełnij instalację o bardziej kompleksowe narzędzie SMART.

W wierszu poleceń jako administrator uruchom: wmic diskdrive get model, statusJeżeli zwróci OK, status SMART jest poprawny; jeżeli widzisz Pred FailIstnieją parametry krytyczne i są one istotne Zrób kopię i pomyśl o zamienniku..

W programie PowerShell uruchom jako administrator i uruchom: Get-PhysicalDisk | Select-Object MediaType, Size, SerialNumber, HealthStatus. Pole Stan zdrowia pokaże Ci Zdrowe, Ostrzegawcze lub Niezdrowe, przydatne dla wykrywaj problemy na pierwszy rzut oka.

Aby sprawdzić i naprawić błędy logicznego systemu plików, użyj programu CHKDSK. Uruchom następujące polecenie w konsoli z podwyższonymi uprawnieniami: chkdsk C: /f /r /x aby rozwiązywać problemy, lokalizować uszkodzone sektory i w razie potrzeby demontować dysk; jeśli potrzebujesz przewodnika, Naprawa systemu Windows po poważnym wirusieSprawdź to teraz. W systemie NTFS możesz użyć chkdsk /scan do analizy online.

macOS: Narzędzie dyskowe i terminal

Na komputerze Mac masz dwie bardzo proste ścieżki. Z jednej strony, Narzędzie dyskowe (Aplikacje > Narzędzia): Wybierz dysk fizyczny i naciśnij Pierwsza pomoc aby naprawić system plików; dodatkowo zobaczysz Status SMART takie jak Zweryfikowano lub Niepowodzenie.

Jeśli wolisz Terminal, uruchom diskutil info /Volumes/NombreDeTuDisco i poszukaj linii Status SMART. Jeśli na liście jest opcja Zweryfikowano, oddychaj; ale, natychmiastowa kopia zapasowa i rozważ wprowadzenie zmian.

Linux extra: dmesg, /sys i GUI z GSmartControl

Oprócz smartctl, pomocne może okazać się sprawdzenie dziennika jądra pod kątem następujących elementów: Błędy wejścia/wyjścia lub przekroczenia limitu czasu kontrolera. Szybki filtr wyglądałby następująco: dmesg | grep -i errori uzupełnia je terminami takimi jak failed o timeout.

Aby uzyskać podstawowe informacje o urządzeniu, możesz odczytać ścieżki systemowe, takie jak /sys/block/sdX/device/model lub statystyki /sys/block/sdX/statPrzydatne, gdy chcesz zweryfikuj aktywność i model bez użycia zewnętrznych narzędzi.

Jeśli wolisz interfejs graficzny, zainstaluj GSmartControl (na przykład: sudo apt install -y gsmartcontrol) i uruchom go z uprawnieniami administratora. Pozwala to na Wyświetlaj atrybuty, uruchamiaj krótkie/długie testy i eksportuj raporty za pomocą kilku kliknięć.

HD Tune

Zalecane narzędzia innych firm

Aby wyjść poza podstawowe funkcje wykrywania usterek dysku SSD za pomocą poleceń SMART, dostępne są następujące bardzo popularne narzędzia:

Informacje o CrystalDisk (Windows) jest darmowy, przejrzysty i kompatybilny z wewnętrznymi i zewnętrznymi technologiami SATA i NVMe; wyświetla atrybuty SMART, temperatury i godziny użytkowania.
HD Tune Dodaje mapy sektorów i testy prędkości (dostępna jest wersja płatna).
Strażnik dysku twardego Koncentruje się na ciągłym monitorowaniu, zaawansowanych alertach i raportach. Jego bezpłatna wersja jest ograniczona, ale bardzo skuteczna w interpretacji SMART.
GSmartControl Jest bezpłatny i umożliwia przeprowadzanie testów oraz przeglądanie atrybutów przy użyciu graficznego interfejsu użytkownika.

Ekskluzywna zawartość — kliknij tutaj Jak zresetować produkty Google Home?

Znaki, że Twój dysk SSD lub HDD jest na wyczerpaniu

Wymień typowe objawy: Powolne uruchamianie, nieoczekiwane wyłączanie się systemu, niebieskie ekrany śmierci (BSoD lub kernel panic)Pliki, których nie da się otworzyć lub które ulegają uszkodzeniu, brak możliwości instalacji lub aktualizacji oraz dyski, które zniknąć z systemu lub BIOS-u/UEFI.

W przypadku dysków twardych dźwięki mechaniczne (trzaski, piski, brzęczenie) są złym znakiem. W przypadku dysków SSD należy zwrócić uwagę na błędy zapisu. błędy podczas montowania woluminów oraz wzrost liczby przeniesionych sektorów lub strat. Jeśli problemy występują sporadycznie, nie popadaj w samozadowolenie: Zrób kopię teraz.

Mądre zakupy: na co zwrócić uwagę przy wyborze nowych płyt

Ceni marki o dobrej reputacji (Seagate, WD, Toshiba, Samsung), typ jedności (dysk SSD dla szybkości, dysk HDD dla pojemności), interfejs (SATA, NVMe w M.2/PCIe), pamięć podręczna i rozpraszanie ciepła. umiejętność Zaleca się, aby nieznacznie przeszacować ją ponad swoje rzeczywiste potrzeby.

Sprawdź deklarowana trwałość (TBW na dyskach SSD, gwarancje, MTBF z zachowaniem ostrożności), przeznaczenie (Modele NAS często lepiej działają i obsługują RAID) i budżet: czasami płacąc trochę więcej, zyskujesz spokój ducha i pożyteczne życie.

Ograniczenia metody SMART: kontekst i badania

SMART jest przydatny, ale niedoskonały: istnieją rozbieżności między producentami W definicjach i standaryzacjach niektóre atrybuty są bardzo cenne (ponownie przypisane, oczekujące, niemożliwe do skorygowania), podczas gdy inne wnoszą niewiele. Backblaze wskazuje, że tylko garść atrybutów Dobrze koreluje z awariami, a Google pokazało przypadki awarie bez wcześniejszego powiadomienia.

Co to oznacza? Oznacza to, że SMART pomaga przewidywać wiele problemów, ale Twoja strategia musi je łączyć. monitorowanie, redundancja (RAID), kopie zapasowe i odzyskiwanie. Nie ufaj wyłącznie zielonemu światłu.

Jeśli narzędzie lub system zgłosi Ostrzeżenie/Przewidywalna awaria/Niezdrowe1) Skopiuj teraz jak najwięcej, 2) Sprawdź za pomocą innego narzędzia, aby potwierdzić, 3) Zaplanuj natychmiastowa wymianaPo wprowadzeniu zmiany sprawdź w razie potrzeby RAID, aby uniknąć ryzyko odbudowy.

Trzymanie się tego, co najważniejsze, pomaga: SMART ostrzega Cię przed wieloma pojawiającymi się problemami.Ale nie wszystkie; mądrym sposobem pracy jest połączenie jej z zaplanowanymi testami, dobrymi kopiami zapasowymi i jasną polityką zastępowania, gdy krytyczne wskaźniki zaczną się zmieniać.

Powiązany artykuł:

Jak wyczyścić rejestr systemu Windows, nie psując niczego

Daniel Terrasa

Redaktor specjalizujący się w zagadnieniach technologii i Internetu z ponad dziesięcioletnim doświadczeniem w różnych mediach cyfrowych. Pracowałem jako redaktor i twórca treści dla firm z branży e-commerce, komunikacji, marketingu online i reklamy. Pisałem także na portalach poświęconych ekonomii, finansom i innym branżom. Moja praca jest także moją pasją. Teraz, poprzez moje artykuły w Tecnobits, staram się odkrywać wszystkie nowości i nowe możliwości, jakie świat technologii oferuje nam każdego dnia, aby poprawić nasze życie.