本帖最后由 odie82544 于 2013-7-8 02:10 编辑
这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
首先, MTBF 全名 Mean Time Between Failure, 中文: 平均故障間隔時間 或 平均失效时间
我在工作时后对 MTBF 的定义与判定是: 第一次发生故障时后而且无法再使用
例如, 风扇转速低到无法再转而触发系统警告 (System Event), 这时候风扇就被判定 MTBF 失效
这种情况一旦发生, 就会导致 Customer Service 需求, 而影响品牌形象及产生客服费用
所以要避免或延迟额外的公司支出, MTBF 必须有效地提高, 而一味的提高 MTBF 会导致产品造价过高而没有竞争力
也会造成产品 "不太用的坏", 用不坏我怎卖你下一台呢?
MTBF 要提高, 首先要针对最弱的地方强化, 每一个元件都有被定义它的重要性, 这是有规范的, 不是随厂商自己定义
以一台电脑系统来说, PSU 在 MTBF 上的重要性就被定的相当高, 一旦发生异常, 就等同判定系统 MTBF 发生
而主机板上的一个电容故障导致 Serial Port 无法使用, 其他都还正常, 这种电容的重要性就低一些
从最弱的地方强化 MTBF 而提高系统的可靠度, 常见的方法就是 "备援机制", 从 PSU 到 FAN 都有所谓的支持 Hot Plug 来
提供备援机制, 而 HDD 的阵列, 也是其中一种 (RAID0, JBOD 除外), 为了弥补 RAID0 阵列的不可靠, 先后出现了
RAID 10 / RAID 50 / RAID 60 等等的技术
HDD 坏轨 (Bad Sector), 只要在韧件或是 OS 中 Mark 掉, 就不会再被使用, 请问硬碟坏了吗?
没坏, 还是可以继续用的, 只是你会很不爽而已, 请问你是 User, 你要怎样判定这种有坏又没坏的状况?
保修内, 你一定送修, 但厂商收到后, 只会判定坏轨而不予换新
硬盘出厂时后本来就不是每一个 sector 都是好的, 出厂前制造商会从 Firmware 标示, 并且提供多一些的 sector 来"弥补"
就我所知, 硬盘真正可用的 sector 其实高过你在电脑中看见的, 多出来的那些是给万一发生 bad sector 时候可修复时用
但这些多出的全都是厂商"保留"的
所谓的保留意思就是 "我没卖你那些", 你买 1T 就是 1T, 就算有 1.1T 那多出的 0.1T 也没卖给你,
所以你的坏轨硬碟我会帮你从 HDD Firmware 中重新映射到保留区 (remap) 而达到所谓的"已修复"来归返
在不断要求 cost down 压力下, 厂商连帮你做 remap 的费用都不愿意出了, 要 user 自己做
重新映射 bad sector 最常见的方法就是低阶格式化 (Low Level Format), 多数硬碟厂商都提供了自己的工具
要 user 先跑过这个软件, 美其名是要你先告知 Error Code, 实际上过程中就是检查 sector, 等你告知 Error Code
之后再告诉你接下去该怎样处理
转回主题, 文中看起来, 给我的感觉就是不鼓励采用阵列, 其中拿了 HDD MTBF 当说明, 但在我工作经验与所知, 这样说法是矛盾的
而 RAID5 本来就只保证一个硬碟可失效, 是否不会造成资料损失必须依照写入的资料量来决定
我就曾经 HDD x5 做 RAID5, 在毫无写入任何资料的情况下拔掉两个后仍然用三个盘读写故障的 RAID5 好一段时间而没有资料损失
总之, 资料备份是一定要做的, 听过硬碟放到坏吗? 我同事就发生过, 而且还坏了三个
|