- SMART 可讓您透過讀取關鍵屬性並執行短時和長時自檢來預測 SSD/HDD 的可預測故障。
- Windows、macOS 和 Linux 都提供了用於檢查磁碟健康狀況和溫度的本機方法和應用程式(CrystalDiskInfo、GSmartControl)。
- SMART 並不能涵蓋所有故障:它將監控與備份、冗餘和計劃更換相結合。
如果您擔心儲存設備的健康狀況,那麼您來對地方了:有了 智慧科技 您可以預先發現關鍵的固態硬碟 (SSD) 和機械硬碟 (HDD) 故障,並及時儲存資料。本文將對此進行解釋。 如何使用 SMART 指令偵測 SSD 故障。
除了單純的好奇心之外,監測光碟狀況至關重要。 保證資訊的可用性 並做好容量和性能方面的規劃。硬碟意外故障可能會中斷服務、損害您的聲譽並造成財務損失。雖然固態硬碟 (SSD) 不像機械硬碟 (HDD) 那樣噪音大,但其故障症狀仍然存在: 速度下降,打字錯誤 或因電池損耗而導致的資料遺失。
什麼是 SMART 以及它們能做什麼(不能做什麼)
SMART 是一個縮寫詞, 自我監測、分析和報告技術韌體中的一系列例程會監控磁碟內部變量,並在偵測到故障風險時發出警告。它們的目標很明確:讓您有時間備份資料並在災難發生前更換硬碟。
要使用它,必須滿足以下條件: 主機板(BIOS/UEFI) 硬碟本身支援並啟用了 SMART 功能。如今,它幾乎適用於所有 SATA、SAS、SCSI 和 NVMe 接口,並且現代作業系統可以與之無縫兼容。
它測量的參數包括所有方面: 溫度、重新分配的扇區、CRC錯誤引擎啟動時間、無法修正的讀取/寫入錯誤、待處理磁區數、尋道速度以及其他數十項屬性。每個製造商都定義並標準化了自己的表格,其中包含閾值和可接受值。
重要提示:SMART 功能並非萬能,它只會發出警告。 可預見的故障 (磨損、漸進性機械故障、NAND快閃記憶體塊劣化)。它無法預測。 突發事件 例如電壓突波或突發的電子設備損壞。谷歌和Backblaze等公司的研究表明,某些功能很有用,但 它們並不能涵蓋所有故障。.

Linux:smartmontools、關鍵命令和測試
在 Linux 系統中,smartmontools 軟體包包含兩個部分: 智能控制 (用於查詢和測試的控制台工具) smartd (一個透過系統日誌或電子郵件監控和發出警報的守護程序)。它是免費的,並且與以下系統兼容: SATA、SCSI、SAS 和 NVMe.
安裝(例如 Debian/Ubuntu): sudo apt install smartmontools在其他發行版中,它使用相應的管理器;在 Linux 和 BSD 系統中,它的可用性非常廣泛。 這應該不會給你帶來任何問題。.
首先找到各個單元。您可以使用以下命令列出元件: df -h 或使用以下方式識別磁碟和分割區 sudo fdisk -l請記住:smartctl 操作的是設備,而不是分區;也就是說,它作用於… /dev/sdX 或 /dev/nvmeXnY.
smartctl 的基本指令 啟動 使用 SMART 對特定磁碟進行操作:
- 檢查 SMART 支援和狀態:
sudo smartctl -i /dev/sda - 激活 SMART 如果該功能已停用:
sudo smartctl -s on /dev/sda - 查看所有屬性和日誌:
sudo smartctl -a /dev/sda - 簡短自測 (快速地):
sudo smartctl -t short /dev/sda - 長時間自測 (綜合的):
sudo smartctl -t long /dev/sda - 健康概況:
sudo smartctl -H /dev/sda
使用 cron 任務每周安排一次短測試,每月安排一次長測試。 盡量減少影響並擁有歷史數據請在清晨或低負載時段進行測試;長時間測試後您會注意到 延遲增加和IOPS下降.
Linux 中的裝置命名約定
根據控制器和介面的不同,您會看到不同的路徑。以下是一些識別驅動器和控制器的常見範例: /dev/sd、/dev/nvmen、/dev/sg*除了 3ware 或 HP 控制器 (cciss/hpsa) 上的特定路由之外,了解確切的路由還可以防止… 分析錯誤的設備.
典型錯誤和日誌(ATA/SCSI/NVMe)
SMART 會記錄最近的錯誤,並以解碼後的形式顯示出來。 ATA 您將看到最後五個錯誤及其狀態和代碼; SCSI 列出了讀取、寫入和驗證失敗計數器; NVMe 列印錯誤日誌條目(預設列印最近的 16 條)。
錯誤輸出中常見的縮寫(有助於快速診斷): ABRT, AMNF, CCTO, EOM, ICRC, IDNF, MC, MCR, NM, TK0NF, UNC, WP如果它們反覆出現,則存在一種 物理或連接問題 進行調查。
透過 ID 識別關鍵屬性也很重要,這些屬性通常與即將發生的故障相關: 05, 10, 183, 184, 188, 196, 197, 198, 201, 230其中任何一項指標持續上升都是不好的跡象。
SMART屬性:如何解讀它們以及應該關注哪些屬性
程式會用多個欄位顯示每個參數。它通常包括 標識符(1-250)、閾值、值、最差值和原始數據此外,還有各種標誌(例如是否為關鍵指標、統計指標等)。歸一化值初始值較高,且 使用量減少超過閾值將觸發警告。
在偵測磨損或損壞時,以下屬性最有用: 已搬遷的_部門_Ct (重新分配的扇區) 目前待處理部門 (不穩定待定行業) 離線_無法修正 (未經離線更正的錯誤) 重新定位事件計數 (重新分配事件)以及在硬碟上, 旋轉重試次數 (引擎啟動重試次數)。這些與固態硬碟 (SSD) 相關。 磨損等級計數 y 程序/擦除失敗.
溫度有爭議,但保持設備低於 60°C 這樣可以降低出錯的機率。檢查機殼氣流,如有必要,為 M.2 固態硬碟加裝 NVMe 散熱片。 避免限速和性能下降.

Windows:WMIC、PowerShell 和 CHKDSK
若要快速檢查 Windows 系統,您可以使用經典控制台。 WMIC 或使用 PowerShell,無需安裝任何其他軟體,如果需要,還可以使用更全面的 SMART 工具進行補充。
以管理員身份執行命令提示符,然後執行: wmic diskdrive get model, status如果傳回 OK,則 SMART 狀態正確;如果您看到 預測失敗存在一些關鍵參數,而且這很重要。 備份一份,然後考慮替換方案。.
在 PowerShell 中,以管理員身分執行並執行: Get-PhysicalDisk | Select-Object MediaType, Size, SerialNumber, HealthStatus. 領域 健康狀況 將顯示“健康”、“警告”或“不健康”,這很有用。 一眼就能發現問題.
若要檢查和修復邏輯檔案系統錯誤,請使用 CHKDSK。請在控制台中以管理員權限執行以下命令: chkdsk C: /f /r /x 排除故障、定位壞扇區,並在必要時拆卸硬碟;如果您需要指南 嚴重病毒後修復 Windows現在就來看看吧。在 NTFS 檔案系統中,你可以使用 chkdsk /scan 用於線上分析。
macOS:磁碟工具和終端
在Mac上,你有兩個非常簡單的路徑。一方面, 磁盤工具 (應用程式 > 實用工具):選擇實體磁碟機並按 急救 修復檔案系統;此外,您還會看到 SMART狀態 例如:已驗證或未驗證。
如果您喜歡使用終端,請運行 diskutil info /Volumes/NombreDeTuDisco 並尋找這條線 智慧狀態如果顯示“已驗證”,那就放心;但是, 立即備份 並考慮做出改變。
Linux 附加功能:dmesg、/sys 和帶有 GSmartControl 的 GUI
除了使用 smartctl 之外,檢查內核日誌中是否有以下任何內容也很有幫助: I/O錯誤 或控制器超時。一個快速篩選方法是: dmesg | grep -i error並用諸如此類的詞語加以補充 failed o timeout.
要了解設備的基本信息,您可以讀取系統路徑,例如 /sys/block/sdX/device/model 或統計數據 /sys/block/sdX/stat當你需要的時候很有用 驗證活動和模型 無需外部工具。
如果您更喜歡圖形介面,請安裝 智能控制 (例如: sudo apt install -y gsmartcontrol)並以管理員權限運行它。它允許您… 查看屬性、運行短/長測試以及匯出報告 點擊幾下。

推薦的第三方工具
為了在利用 SMART 命令檢測 SSD 故障時超越基本功能,您可以使用一些非常流行的實用程式:
- CrystalDiskInfo (Windows)免費、清晰,相容於內部和外部 SATA 和 NVMe;它顯示 SMART 屬性、溫度和使用時間。
- HD Tune 它增加了區域地圖和速度測試(它有付費版本)。
- 硬盤前哨 它專注於持續監控、進階警報和報告;其免費版本功能有限,但在解讀 SMART 數據方面非常強大。
- 智能控制 它是免費的,並且允許您透過圖形介面運行測試和查看屬性。
固態硬碟或機械硬碟即將報廢的跡象
列出常見症狀: 啟動緩慢、意外關機、藍色畫面死機(BSoD 或核心崩潰)檔案無法開啟或損壞,無法安裝或更新,以及磁碟機出現問題 從系統或 BIOS/UEFI 消失.
對於機械硬碟來說,機械噪音(喀喀聲、吱吱聲、嗡嗡聲)是故障的徵兆。對於固態硬碟來說,則需要檢查是否有寫入錯誤。 掛載磁碟區時出錯 以及重新分配部門數量增加或人員流失數量增加。如果問題是間歇性的,也不要掉以輕心: 立即複製.
精明購買:挑選新唱片時該注意什麼
它重視信譽良好的品牌(希捷、西部數據、東芝、三星), 團結報 (SSD 用於速度,HDD 用於容量),介面(SATA,M.2/PCIe 中的 NVMe),緩存,以及散熱。 容量 建議略微高估所需數量,比實際需求略多。
檢查 宣稱的耐用性 (固態硬碟的總寫入量、保固、平均故障間隔時間需謹慎考慮) 預期用途 (NAS 機型通常表現較好,RAID 處理能力也較強)以及預算:有時多花一點錢能獲得更好的體驗 安心和充實的生活.
SMART的限制:背景與研究
智慧技術雖然有用,但並不完美:存在一些問題。 製造商之間的不一致 在定義和標準化過程中,有些屬性非常重要(例如已重新分配、待定、不可修正),而有些屬性則貢獻甚微。 Backblaze 指出,只有 一些屬性 它與失敗案例高度相關,Google也展示了一些案例。 未事先通知的故障.
這意味著什麼?這意味著 SMART 原則有助於預見許多問題,但你的策略必須結合其他因素。 監控、冗餘(RAID)、備份和恢復不要只相信綠燈。
如果工具或系統報告 警告/可預見的故障/不健康1)現在盡可能複製,2)使用其他工具進行驗證以確認,3)安排 立即更換更改完成後,如有必要,請檢查 RAID 設定以避免問題。 重建風險.
堅持基本原則有助於: SMART 會就即將出現的許多問題向您發出警告。但並非所有方法都適用;明智的做法是將其與定期測試、良好的備份以及在關鍵指標開始發生變化時明確的更換策略相結合。
專門研究技術和互聯網問題的編輯,在不同數位媒體領域擁有十多年的經驗。我曾在電子商務、通訊、線上行銷和廣告公司擔任編輯和內容創作者。我還在經濟、金融和其他領域的網站上撰寫過文章。我的工作也是我的熱情所在。現在,透過我的文章 Tecnobits,我嘗試探索科技世界每天為我們提供的所有新聞和新機會,以改善我們的生活。