找回密码
 立即注册
[string global_login_extra]

QQ登录

只需一步,快速开始

扫一扫,访问移动社区

楼主: emaic

[分享] 为什么RAID5往往掉一个盘后第二个盘也立刻挂掉的原因

  [复制链接]
  • TA的每日心情
    擦汗
    2014-2-1 17:31
  • 签到天数: 52 天

    [LV.5]常住居民I

    26

    丝瓜

    184

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 01:12:54 | 显示全部楼层
    还是raid1吧,感觉更加靠谱啊~
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2014-1-24 00:10
  • 签到天数: 79 天

    [LV.6]常住居民II

    1181

    丝瓜

    1710

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 01:13:54 | 显示全部楼层
    技术文
    謝謝分享
    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    2014-5-28 01:25
  • 签到天数: 173 天

    [LV.7]常住居民III

    6675

    丝瓜

    962

    回帖

    9

    精华

    贡献会员

    Medal No.1Medal No.2Medal No.3Medal No.4Medal No.5Medal No.6Medal No.7Medal No.8Medal No.9Medal No.10

    发表于 2013-7-8 01:51:12 | 显示全部楼层
    本帖最后由 odie82544 于 2013-7-8 02:10 编辑

    这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
    首先, MTBF 全名 Mean Time Between Failure, 中文: 平均故障間隔時間平均失效时间

    我在工作时后对 MTBF 的定义与判定是: 第一次发生故障时后而且无法再使用

    例如, 风扇转速低到无法再转而触发系统警告 (System Event), 这时候风扇就被判定 MTBF 失效
    这种情况一旦发生, 就会导致 Customer Service 需求, 而影响品牌形象及产生客服费用
    所以要避免或延迟额外的公司支出, MTBF 必须有效地提高, 而一味的提高 MTBF 会导致产品造价过高而没有竞争力
    也会造成产品 "不太用的坏", 用不坏我怎卖你下一台呢?

    MTBF 要提高, 首先要针对最弱的地方强化, 每一个元件都有被定义它的重要性, 这是有规范的, 不是随厂商自己定义
    以一台电脑系统来说, PSU 在 MTBF 上的重要性就被定的相当高, 一旦发生异常, 就等同判定系统 MTBF 发生
    而主机板上的一个电容故障导致 Serial Port 无法使用, 其他都还正常, 这种电容的重要性就低一些

    从最弱的地方强化 MTBF 而提高系统的可靠度, 常见的方法就是 "备援机制", 从 PSU 到 FAN 都有所谓的支持 Hot Plug
    提供备援机制, 而 HDD 的阵列, 也是其中一种 (RAID0, JBOD 除外), 为了弥补 RAID0 阵列的不可靠, 先后出现了
    RAID 10 / RAID 50 / RAID 60 等等的技术

    HDD 坏轨 (Bad Sector), 只要在韧件或是 OS 中 Mark 掉, 就不会再被使用, 请问硬碟坏了吗?
    没坏, 还是可以继续用的, 只是你会很不爽而已, 请问你是 User, 你要怎样判定这种有坏又没坏的状况?
    保修内, 你一定送修, 但厂商收到后, 只会判定坏轨而不予换新

    硬盘出厂时后本来就不是每一个 sector 都是好的, 出厂前制造商会从 Firmware 标示, 并且提供多一些的 sector 来"弥补"
    就我所知, 硬盘真正可用的 sector 其实高过你在电脑中看见的, 多出来的那些是给万一发生 bad sector 时候可修复时用
    但这些多出的全都是厂商"保留"的

    所谓的保留意思就是 "我没卖你那些", 你买 1T 就是 1T, 就算有 1.1T 那多出的 0.1T 也没卖给你,
    所以你的坏轨硬碟我会帮你从 HDD Firmware 中重新映射到保留区 (remap) 而达到所谓的"已修复"来归返

    在不断要求 cost down 压力下, 厂商连帮你做 remap 的费用都不愿意出了, 要 user 自己做
    重新映射 bad sector 最常见的方法就是低阶格式化 (Low Level Format), 多数硬碟厂商都提供了自己的工具
    要 user 先跑过这个软件, 美其名是要你先告知 Error Code, 实际上过程中就是检查 sector, 等你告知 Error Code
    之后再告诉你接下去该怎样处理

    转回主题, 文中看起来, 给我的感觉就是不鼓励采用阵列, 其中拿了 HDD MTBF 当说明, 但在我工作经验与所知, 这样说法是矛盾的
    而 RAID5 本来就只保证一个硬碟可失效, 是否不会造成资料损失必须依照写入的资料量来决定
    我就曾经 HDD x5 做 RAID5, 在毫无写入任何资料的情况下拔掉两个后仍然用三个盘读写故障的 RAID5 好一段时间而没有资料损失

    总之, 资料备份是一定要做的, 听过硬碟放到坏吗? 我同事就发生过, 而且还坏了三个
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-5-9 11:38
  • 签到天数: 52 天

    [LV.5]常住居民I

    319

    丝瓜

    214

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 06:30:21 | 显示全部楼层
    悲催的大容量raid5,其实现在的情况变成了:大容量硬盘肯定会坏,nas努力做的应该是让这个损坏造成的影响最小。这样的诉求下,raid起的其实是反作用,raid0让数据损失率达到100%,raid1空间利用率太低家用很心疼,raid5慢性自杀。个人感觉能较好解决大容量存储和永久在线的方案就是无raid的独立盘,每个盘都是独立的空间大部分时间是休眠的,只有需要访问他上边的数据时才会启动又省去冷插拔的麻烦,做到这样群晖是肯定不行的,必须使用系统盘和数据盘分离的nas方案才行。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-5-10 23:39
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    180

    丝瓜

    111

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 07:58:05 | 显示全部楼层
    学习了,看来还是raid1吧
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-5-29 08:14
  • 签到天数: 217 天

    [LV.7]常住居民III

    1740

    丝瓜

    1074

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 08:58:05 | 显示全部楼层
    学习了,现在容量越大越不安全。
    回复

    使用道具 举报

  • TA的每日心情

    2014-5-29 00:23
  • 签到天数: 202 天

    [LV.7]常住居民III

    820

    丝瓜

    325

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 09:20:03 | 显示全部楼层
    odie82544 发表于 2013-7-8 01:51
    这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
    首先, M ...

    这个写的比较好理解。我还是继续R5另外冷备份照片算鸟。
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2013-10-14 20:42
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    268

    丝瓜

    163

    回帖

    1

    精华

    普通用户

    发表于 2013-7-8 09:34:11 | 显示全部楼层
    我也是,现在安安心心搞回raid1,毕竟数据无价啊!
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-5-28 11:34
  • 签到天数: 182 天

    [LV.7]常住居民III

    1514

    丝瓜

    1192

    回帖

    0

    精华

    普通用户

    发表于 2013-7-8 09:39:36 | 显示全部楼层
    odie82544 发表于 2013-7-8 01:51
    这文我第一次看, 但有一些部份说法我个人认为很有问题, 刚好几年前我做过开发阶段的 MTBF 计算工作
    首先, M ...

    硬盘放到坏掉我有过一次经验,
    一个 2T 硬盘存好数据,拔除联机
    一个月后接上要读取,看得到读不到,
    读取速度只有 几 kb/s ,读读就读取错误
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2013-10-31 14:18
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    77

    丝瓜

    119

    回帖

    0

    精华

    普通用户

    发表于 2013-7-9 12:07:58 | 显示全部楼层
    还没敢做阵列!就是怕怀!
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2014-5-29 00:20
  • 签到天数: 166 天

    [LV.7]常住居民III

    882

    丝瓜

    707

    回帖

    0

    精华

    普通用户

    发表于 2013-7-9 13:42:35 | 显示全部楼层

    为了50权限.......努力回贴

    这个好
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-5-13 17:47
  • 签到天数: 42 天

    [LV.5]常住居民I

    58

    丝瓜

    400

    回帖

    0

    精华

    普通用户

    发表于 2013-7-10 23:42:12 | 显示全部楼层
    学习学习
    回复

    使用道具 举报

  • TA的每日心情

    2014-5-29 01:50
  • 签到天数: 75 天

    [LV.6]常住居民II

    351

    丝瓜

    192

    回帖

    0

    精华

    普通用户

    发表于 2013-7-11 01:07:22 | 显示全部楼层
    居然是引用 sharin 的贴在外面不多见呀 呵呵
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2014-5-26 22:22
  • 签到天数: 156 天

    [LV.7]常住居民III

    780

    丝瓜

    559

    回帖

    0

    精华

    普通用户

    发表于 2013-7-11 01:30:47 | 显示全部楼层
    好文,学习
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2014-5-22 23:50
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    66

    丝瓜

    214

    回帖

    0

    精华

    普通用户

    发表于 2013-7-20 13:44:53 | 显示全部楼层
    其实什么阵列都不做更安全,普通数据恢复的价格并不是不能接受,但是阵列的数据恢复可不是一般的贵,花过这个钱的都知道,我是怕了
    回复

    使用道具 举报

  • TA的每日心情
    郁闷
    2013-10-19 02:41
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    410

    丝瓜

    179

    回帖

    0

    精华

    普通用户

    发表于 2013-7-31 18:17:31 | 显示全部楼层
    拜读楼主大作,之前怎么会没看到呢?莫非大家看不懂就没敢回?虽然具体数据没能力探究,不过还是感谢楼主。
    O大神纠正MTBF的定义正本清源,可是我没看出来楼主有不鼓励使用Raid的意思,只是不鼓励Raid5而已。O大神自己做的实验我认为不能说明什么问题,不知道大神考虑过当一同辛勤工作了几年后,那些在Raid5中阵亡的硬盘的小伙伴们的心情没有,小伙伴们已经疲惫不堪了还要承受满负荷的工作...至少我看到不少Raid5中硬盘接连阵亡的文章。在IT行业内(兄弟不在这个行业,只是经常看看文章,偶尔给为了给客户安装我们的系统而制作简单方案),通常不鼓励使用大容量的磁盘组成阵列做关键性的存储。
    虽然,我也推荐过很多次使用3块硬盘做Raid5,但是一个因为预算,另一个使用的磁盘是SAS 15Krpm 300G的小容量盘可靠性比较高,并且不是最关键的服务器。
    至于说放坏硬盘,我没遇到过,但是在其他电子产品上经常发生这种情况,所以我绝对相信。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2013-9-8 12:25
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    69

    丝瓜

    200

    回帖

    0

    精华

    普通用户

    发表于 2013-7-31 21:57:44 | 显示全部楼层
    技术贴, 要顶。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-4-24 14:34
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    200

    丝瓜

    122

    回帖

    0

    精华

    普通用户

    发表于 2013-7-31 22:06:48 | 显示全部楼层
    謝謝分享
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2014-5-29 00:00
  • 签到天数: 120 天

    [LV.7]常住居民III

    695

    丝瓜

    1272

    回帖

    0

    精华

    普通用户

    发表于 2013-8-1 23:17:24 | 显示全部楼层
    不错的资料。谢谢。
    回复

    使用道具 举报

  • TA的每日心情
    无聊
    2014-1-18 15:53
  • 签到天数: 31 天

    [LV.5]常住居民I

    206

    丝瓜

    119

    回帖

    0

    精华

    普通用户

    发表于 2013-8-1 23:55:58 | 显示全部楼层
    1。放坏这件事......硬盘是要定期上转的,闲置太久容易损坏

    2。Raid5仍可以用,定期校验数据,不要使用同一批次的硬盘,可极大减小风险

    3。如果按照某些理论,Raid6或有热备又如何?只不过稍微安全了一点。当然,SATA组Raid6,实际应用中几乎没有这样做的。

    4。事实上确实越来越多的应用场景中,选择了JBOD,不单单因为成本。

    5。我们还有ZFS或Storage Spaces可选择,后者更灵活一些。软Raid更不安全的说法, 有什么逻辑支撑?

    6。蓝光备份是目前成本最低,可用性最高的备份方案。BD25不够用的话,现在BD50也便宜一些了,可以备份整张写满的32G存储卡。但这样做之前最好算算到底有多少数据需要这样去备份,它的增长率又是多少。至少你下载的那些东西, 已经有人帮你备份了。

    点评

    呵呵,仅仅随便聊聊,不必太认真哈。 硬盘无论是不通电还是作为Hot Spare长期通电,都可能损坏。当你以为做了Raid6又用一块硬盘做了Hot Spare,应该万无一失了,用了几年都没有问题,突然有一天阵列中一块盘挂了,H  详情 回复 发表于 2013-8-2 11:38
    回复

    使用道具 举报

    懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    [string global_footer]

    QQ|Archiver|手机版|小黑屋|第一纳斯网 ( 粤ICP备19046372号 )[string global_footerlink]

    GMT+8, 2024-11-23 21:32

    Powered by Discuz! X3.5

    © 2001-2024 Discuz! Team.

    快速回复 返回顶部 返回列表