为什么RAID5往往掉一个盘后第二个盘也立刻挂掉的原因

dolphinrfc · 发表于 2013-7-8 00:34:22

謝謝分享

doraemonsjb · 发表于 2013-7-8 01:12:54

提示: 作者被禁止或删除内容自动屏蔽

youqibing · 发表于 2013-7-8 01:13:54

技术文
謝謝分享

odie82544 · 发表于 2013-7-8 01:51:12

本帖最后由 odie82544 于 2013-7-8 02:10 编辑

这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
首先, MTBF 全名 Mean Time Between Failure, 中文: 平均故障間隔時間 或 平均失效时间

我在工作时后对 MTBF 的定义与判定是: 第一次发生故障时后而且无法再使用

例如, 风扇转速低到无法再转而触发系统警告 (System Event), 这时候风扇就被判定 MTBF 失效
这种情况一旦发生, 就会导致 Customer Service 需求, 而影响品牌形象及产生客服费用
所以要避免或延迟额外的公司支出, MTBF 必须有效地提高, 而一味的提高 MTBF 会导致产品造价过高而没有竞争力
也会造成产品 "不太用的坏", 用不坏我怎卖你下一台呢?

MTBF 要提高, 首先要针对最弱的地方强化, 每一个元件都有被定义它的重要性, 这是有规范的, 不是随厂商自己定义
以一台电脑系统来说, PSU 在 MTBF 上的重要性就被定的相当高, 一旦发生异常, 就等同判定系统 MTBF 发生
而主机板上的一个电容故障导致 Serial Port 无法使用, 其他都还正常, 这种电容的重要性就低一些

从最弱的地方强化 MTBF 而提高系统的可靠度, 常见的方法就是 "备援机制", 从 PSU 到 FAN 都有所谓的支持 Hot Plug 来
提供备援机制, 而 HDD 的阵列, 也是其中一种 (RAID0, JBOD 除外), 为了弥补 RAID0 阵列的不可靠, 先后出现了
RAID 10 / RAID 50 / RAID 60 等等的技术

HDD 坏轨 (Bad Sector), 只要在韧件或是 OS 中 Mark 掉, 就不会再被使用, 请问硬碟坏了吗?
没坏, 还是可以继续用的, 只是你会很不爽而已, 请问你是 User, 你要怎样判定这种有坏又没坏的状况?
保修内, 你一定送修, 但厂商收到后, 只会判定坏轨而不予换新

硬盘出厂时后本来就不是每一个 sector 都是好的, 出厂前制造商会从 Firmware 标示, 并且提供多一些的 sector 来"弥补"
就我所知, 硬盘真正可用的 sector 其实高过你在电脑中看见的, 多出来的那些是给万一发生 bad sector 时候可修复时用
但这些多出的全都是厂商"保留"的

所谓的保留意思就是 "我没卖你那些", 你买 1T 就是 1T, 就算有 1.1T 那多出的 0.1T 也没卖给你,
所以你的坏轨硬碟我会帮你从 HDD Firmware 中重新映射到保留区 (remap) 而达到所谓的"已修复"来归返

在不断要求 cost down 压力下, 厂商连帮你做 remap 的费用都不愿意出了, 要 user 自己做
重新映射 bad sector 最常见的方法就是低阶格式化 (Low Level Format), 多数硬碟厂商都提供了自己的工具
要 user 先跑过这个软件, 美其名是要你先告知 Error Code, 实际上过程中就是检查 sector, 等你告知 Error Code
之后再告诉你接下去该怎样处理

转回主题, 文中看起来, 给我的感觉就是不鼓励采用阵列, 其中拿了 HDD MTBF 当说明, 但在我工作经验与所知, 这样说法是矛盾的
而 RAID5 本来就只保证一个硬碟可失效, 是否不会造成资料损失必须依照写入的资料量来决定
我就曾经 HDD x5 做 RAID5, 在毫无写入任何资料的情况下拔掉两个后仍然用三个盘读写故障的 RAID5 好一段时间而没有资料损失

总之, 资料备份是一定要做的, 听过硬碟放到坏吗? 我同事就发生过, 而且还坏了三个

ownhere · 发表于 2013-7-8 06:30:21

悲催的大容量raid5，其实现在的情况变成了：大容量硬盘肯定会坏，nas努力做的应该是让这个损坏造成的影响最小。这样的诉求下，raid起的其实是反作用，raid0让数据损失率达到100%，raid1空间利用率太低家用很心疼，raid5慢性自杀。个人感觉能较好解决大容量存储和永久在线的方案就是无raid的独立盘，每个盘都是独立的空间大部分时间是休眠的，只有需要访问他上边的数据时才会启动又省去冷插拔的麻烦，做到这样群晖是肯定不行的，必须使用系统盘和数据盘分离的nas方案才行。

catty2000 · 发表于 2013-7-8 07:58:05

学习了，看来还是raid1吧

hjfgt · 发表于 2013-7-8 08:58:05

学习了，现在容量越大越不安全。

ololala · 发表于 2013-7-8 09:20:03

odie82544 发表于 2013-7-8 01:51
这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
首先, M ...

这个写的比较好理解。我还是继续R5另外冷备份照片算鸟。

小强 · 发表于 2013-7-8 09:34:11

我也是，现在安安心心搞回raid1，毕竟数据无价啊！

dolphinrfc · 发表于 2013-7-8 09:39:36

odie82544 发表于 2013-7-8 01:51
这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
首先, M ...

硬盘放到坏掉我有过一次经验,
一个 2T 硬盘存好数据,拔除联机
一个月后接上要读取,看得到读不到,
读取速度只有几 kb/s ,读读就读取错误

zangfuqiang · 发表于 2013-7-9 12:07:58

还没敢做阵列！就是怕怀！

hj-cdx · 发表于 2013-7-9 13:42:35

CONANLI 发表于 2013-7-8 00:03
ZFS,RAIDZ路过

为了50权限.......努力回贴

这个好

wzf · 发表于 2013-7-10 23:42:12

学习学习

蟋蟀 · 发表于 2013-7-11 01:07:22

居然是引用 sharin 的贴在外面不多见呀呵呵

haomaru · 发表于 2013-7-11 01:30:47

好文，学习

liubin8666 · 发表于 2013-7-20 13:44:53

其实什么阵列都不做更安全，普通数据恢复的价格并不是不能接受，但是阵列的数据恢复可不是一般的贵，花过这个钱的都知道，我是怕了

aspire · 发表于 2013-7-31 18:17:31

拜读楼主大作，之前怎么会没看到呢？莫非大家看不懂就没敢回？虽然具体数据没能力探究，不过还是感谢楼主。
O大神纠正MTBF的定义正本清源，可是我没看出来楼主有不鼓励使用Raid的意思，只是不鼓励Raid5而已。O大神自己做的实验我认为不能说明什么问题，不知道大神考虑过当一同辛勤工作了几年后，那些在Raid5中阵亡的硬盘的小伙伴们的心情没有，小伙伴们已经疲惫不堪了还要承受满负荷的工作...至少我看到不少Raid5中硬盘接连阵亡的文章。在IT行业内（兄弟不在这个行业，只是经常看看文章，偶尔给为了给客户安装我们的系统而制作简单方案），通常不鼓励使用大容量的磁盘组成阵列做关键性的存储。
虽然，我也推荐过很多次使用3块硬盘做Raid5，但是一个因为预算，另一个使用的磁盘是SAS 15Krpm 300G的小容量盘可靠性比较高，并且不是最关键的服务器。
至于说放坏硬盘，我没遇到过，但是在其他电子产品上经常发生这种情况，所以我绝对相信。

civ · 发表于 2013-7-31 21:57:44

技术贴，要顶。

paulcheong · 发表于 2013-7-31 22:06:48

謝謝分享

js3000 · 发表于 2013-8-1 23:17:24

不错的资料。谢谢。

[玩法/技巧] 为什么RAID5往往掉一个盘后第二个盘也立刻挂掉的原因

电梯直达
评论91

回复

nas高手

纳斯达人

关于我们

服务支持

support@gebi1.cn