- SMART 允许您通过读取关键属性并运行短时和长时自检来预测 SSD/HDD 的可预测故障。
- Windows、macOS 和 Linux 都提供了用于检查磁盘健康状况和温度的本地方法和应用程序(CrystalDiskInfo、GSmartControl)。
- SMART 并不能涵盖所有故障:它将监控与备份、冗余和计划更换相结合。
如果您担心存储设备的健康状况,那么您来对地方了:有了 智能技术 您可以预先发现关键的固态硬盘 (SSD) 和机械硬盘 (HDD) 故障,并及时保存数据。本文将对此进行解释。 如何使用 SMART 命令检测 SSD 故障。
除了单纯的好奇心之外,监测光盘状况至关重要。 保证信息的可用性 并做好容量和性能方面的规划。硬盘意外故障可能会中断服务、损害您的声誉并造成经济损失。虽然固态硬盘 (SSD) 不像机械硬盘 (HDD) 那样噪音大,但其故障症状仍然存在: 速度下降,打字错误 或因电池损耗导致的数据丢失。
什么是 SMART 以及它们能做什么(不能做什么)
SMART 是一个缩写词, 自我监测、分析和报告技术固件中的一系列例程会监控磁盘内部变量,并在检测到故障风险时发出警告。它们的目标很明确:让您有时间备份数据并在灾难发生前更换硬盘。
要使用它,必须满足以下条件: 主板(BIOS/UEFI) 该硬盘本身支持并启用了 SMART 功能。如今,它几乎适用于所有 SATA、SAS、SCSI 和 NVMe 接口,并且现代操作系统可以与之无缝兼容。
它测量的参数包括所有方面: 温度、重新分配的扇区、CRC错误引擎启动时间、不可纠正的读/写错误、待处理扇区数、寻道速度以及其他数十项属性。每个制造商都定义并标准化了自己的表格,其中包含阈值和可接受值。
重要提示:SMART 功能并非万能,它只会发出警告。 可预见的故障 (磨损、渐进性机械故障、NAND闪存块劣化)。它无法预测。 突发事件 例如电压浪涌或突发的电子设备损坏。谷歌和Backblaze等公司的研究表明,某些功能很有用,但 它们并不能涵盖所有故障。.

Linux:smartmontools、关键命令和测试
在 Linux 系统中,smartmontools 软件包包含两个部分: Smartctl (用于查询和测试的控制台工具) 聪明的 (一个通过系统日志或电子邮件监控和发出警报的守护进程)。它是免费的,并且与以下系统兼容: SATA、SCSI、SAS 和 NVMe.
安装(例如 Debian/Ubuntu): sudo apt install smartmontools在其他发行版中,它使用相应的管理器;在 Linux 和 BSD 系统中,它的可用性非常广泛。 这应该不会给你带来任何问题。.
首先找到各个单元。您可以使用以下命令列出组件: df -h 或者使用以下方式识别磁盘和分区 sudo fdisk -l请记住:smartctl 操作的是设备,而不是分区;也就是说,它作用于…… /dev/sdX 或 /dev/nvmeXnY.
smartctl 的基本命令 开始 使用 SMART 对特定磁盘进行操作:
- 检查 SMART 支持和状态:
sudo smartctl -i /dev/sda - 激活 SMART 如果该功能被禁用:
sudo smartctl -s on /dev/sda - 查看所有属性和日志:
sudo smartctl -a /dev/sda - 简短自测 (快速地):
sudo smartctl -t short /dev/sda - 长时间自测 (综合的):
sudo smartctl -t long /dev/sda - 健康概况:
sudo smartctl -H /dev/sda
使用 cron 任务每周安排一次短测试,每月安排一次长测试。 尽量减少影响并拥有历史数据请在清晨或低负载时段进行测试;长时间测试后您会注意到 延迟增加和IOPS下降.
Linux 中的设备命名约定
根据控制器和接口的不同,您会看到不同的路径。以下是一些识别驱动器和控制器的常见示例: /dev/sd、/dev/nvmen、/dev/sg*除了 3ware 或 HP 控制器 (cciss/hpsa) 上的特定路由之外,了解确切的路由还可以防止…… 分析错误的设备.
典型错误和日志(ATA/SCSI/NVMe)
SMART 会记录最近的错误,并以解码后的形式显示出来。 ATA 您将看到最后五个错误及其状态和代码; SCSI 列出了读取、写入和验证失败计数器; NVMe 打印错误日志条目(默认情况下打印最近的 16 条)。
错误输出中常见的缩写(有助于快速诊断): ABRT, AMNF, CCTO, EOM, ICRC, IDNF, MC, MCR, NM, TK0NF, UNC, WP如果它们反复出现,则存在一种 物理或连接问题 进行调查。
通过 ID 识别关键属性也很重要,这些属性通常与即将发生的故障相关: 05, 10, 183, 184, 188, 196, 197, 198, 201, 230其中任何一项指标持续上升都是不好的迹象。
SMART属性:如何解读它们以及应该关注哪些属性
程序会用多个字段显示每个参数。它通常包括 标识符(1-250)、阈值、值、最差值和原始数据此外,还有各种标志(例如是否为关键指标、统计指标等)。归一化值初始值较高,并且 使用量减少超过阈值将触发警告。
在检测磨损或损坏时,以下属性最为有用: 已搬迁的_部门_Ct (重新分配的扇区) 当前待处理部门 (不稳定待定行业) 离线_无法纠正 (未经离线更正的错误) 重新定位事件计数 (重新分配事件)以及在硬盘驱动器上, 旋转重试次数 (引擎启动重试次数)。这些与固态硬盘 (SSD) 相关。 磨损等级计数 y 程序/擦除失败.
温度存在争议,但保持设备低于 60°C 这样可以降低出错的概率。检查机箱气流,如有必要,为 M.2 固态硬盘加装 NVMe 散热片。 避免限速和性能下降.

Windows:WMIC、PowerShell 和 CHKDSK
要快速检查 Windows 系统,您可以使用经典控制台。 WMIC 或者使用 PowerShell,无需安装任何其他软件,如果需要,还可以使用更全面的 SMART 工具进行补充。
以管理员身份运行命令提示符,然后运行: wmic diskdrive get model, status如果返回 OK,则 SMART 状态正确;如果您看到 预防失败存在一些关键参数,而且这很重要。 备份一份,然后考虑替换方案。.
在 PowerShell 中,以管理员身份运行并执行: Get-PhysicalDisk | Select-Object MediaType, Size, SerialNumber, HealthStatus。场地 健康状况 将显示“健康”、“警告”或“不健康”,这很有用。 一眼就能发现问题.
要检查和修复逻辑文件系统错误,请使用 CHKDSK。请在控制台中以管理员权限运行以下命令: chkdsk C: /f /r /x 排除故障、定位坏扇区,并在必要时拆卸硬盘;如果您需要指南 严重病毒后修复 Windows现在就来看看吧。在 NTFS 文件系统中,你可以使用 chkdsk /scan 用于在线分析。
macOS:磁盘工具和终端
在Mac上,你有两种非常简单的路径。一方面, 磁盘工具 (应用程序 > 实用工具):选择物理驱动器并按 急救 修复文件系统;此外,您还会看到 SMART状态 例如:已验证或未验证。
如果您更喜欢使用终端,请运行 diskutil info /Volumes/NombreDeTuDisco 并寻找这条线 智能状态如果显示“已验证”,那就放心;但是, 立即备份 并考虑做出改变。
Linux 附加功能:dmesg、/sys 和带有 GSmartControl 的 GUI
除了使用 smartctl 之外,检查内核日志中是否有以下任何内容也很有帮助: I/O错误 或者控制器超时。一个快速筛选方法是: dmesg | grep -i error并用诸如此类的词语加以补充 failed o timeout.
要了解设备的基本信息,您可以读取系统路径,例如 /sys/block/sdX/device/model 或统计数据 /sys/block/sdX/stat当你需要的时候很有用 验证活动和模型 无需外部工具。
如果您更喜欢图形界面,请安装 GSmartControl (例如: sudo apt install -y gsmartcontrol)并以管理员权限运行它。它允许您…… 查看属性、运行短/长测试以及导出报告 点击几下。

推荐的第三方工具
为了在利用 SMART 命令检测 SSD 故障时超越基本功能,您可以使用一些非常流行的实用程序:
- CrystalDiskInfo (Windows)免费、清晰,兼容内部和外部 SATA 和 NVMe;它显示 SMART 属性、温度和使用时间。
- HD Tune的 它增加了区域地图和速度测试(它有付费版本)。
- 硬盘哨兵 它专注于持续监控、高级警报和报告;其免费版本功能有限,但在解读 SMART 数据方面非常强大。
- GSmartControl 它是免费的,并且允许您通过图形界面运行测试和查看属性。
固态硬盘或机械硬盘即将报废的迹象
列出常见症状: 启动缓慢、意外关机、蓝屏死机(BSoD 或内核崩溃)文件无法打开或损坏,无法安装或更新,以及驱动器出现问题 从系统或 BIOS/UEFI 中消失.
对于机械硬盘来说,机械噪音(咔嗒声、吱吱声、嗡嗡声)是故障的征兆。对于固态硬盘来说,则需要检查是否存在写入错误。 挂载卷时出错 以及重新分配部门数量增加或人员流失数量增加。如果问题是间歇性的,也不要掉以轻心: 立即复制.
精明购买:挑选新唱片时应该注意什么
它重视信誉良好的品牌(希捷、西部数据、东芝、三星), 单位类型 (SSD 用于速度,HDD 用于容量),接口(SATA,M.2/PCIe 中的 NVMe),缓存,以及散热。 容量 建议略微高估所需数量,比实际需求略多一些。
检查 宣称的耐用性 (固态硬盘的总写入量、保修、平均故障间隔时间需谨慎考虑) 有可能的使用 (NAS 机型通常性能更好,RAID 处理能力也更强)以及预算:有时多花一点钱能获得更好的体验 安心和充实的生活.
SMART的局限性:背景和研究
智能技术虽然有用,但并不完美:存在一些问题。 制造商之间的不一致 在定义和标准化过程中,有些属性非常重要(例如已重新分配、待定、不可纠正),而另一些属性则贡献甚微。Backblaze 指出,只有 一些属性 它与失败案例高度相关,谷歌也展示了一些案例。 未事先通知的故障.
这意味着什么?这意味着 SMART 原则有助于预见许多问题,但你的策略必须结合其他因素。 监控、冗余(RAID)、备份和恢复不要只相信绿灯。
如果工具或系统报告 警告/可预见的故障/不健康1)现在尽可能多地复制,2)使用其他工具进行验证以确认,3)安排 立即更换更改完成后,如有必要,请检查 RAID 设置以避免出现问题。 重建风险.
坚持基本原则有助于: SMART 会就即将出现的许多问题向您发出警告。但并非所有方法都适用;明智的做法是将其与定期测试、良好的备份以及在关键指标开始发生变化时明确的更换策略相结合。
专门研究技术和互联网问题的编辑,在不同数字媒体领域拥有十多年的经验。我曾在电子商务、通讯、在线营销和广告公司担任编辑和内容创作者。我还在经济、金融和其他领域的网站上撰写过文章。我的工作也是我的热情所在。现在,通过我的文章 Tecnobits,我尝试探索技术世界每天为我们提供的所有新闻和新机会,以改善我们的生活。