史上最怪异的几大数据中心事故

衣荷华州火灾、三星大火、桑迪飓风、失控的SUV四驱汽车、甚至太阳风暴……本文介绍的这几种随机性事件让数据中心运营者夜不能寐。虽然是“小概率”事件,却因为其灾难性后果而不能不防。贵公司的灾难恢复计划是否准备好处理这些突如其来的奇怪事件呢?他山之石,可以为鉴,希望本文可以给各位数据中心运营者敲响警钟。

2014年2月18日下午,那也是衣荷华州平时制作全州工资单的工作日,主数据中心发生了一场电气火灾。衣阿华州CIO Robert von Wolffradt在GovTech.com上发布的一篇博客中回忆道,IT工作人员事先根本普没有料到会发生这种事,他们之前一直在为预报当天晚上会来袭的那场暴风雪准备应急计划。

火警在下午3点拉响后,数据中心断了电,整幢大楼里面烟雾弥漫,工作人员只好疏散。火警触发了数据中心以天然气为燃料的FM-200灭火系统,大火被控制在壁挂式瞬态电压抑制盒(如上图)里面。该装置控制着进入数据中心的电流,因过热而熔化。该州的总务管理团队拉了一条旁路,几小时电又恢复了。

电力恢复正常后,大门可以打开,风扇可以开启,大楼可以通风,不过警察和消防人员不愿意允许IT工作人员回到大楼。火灾发生后过了三个半小时,州政府官员确定可以重新进入数据中心

Wolffradt不得不决定是否可以继续处理该州付给公民和供应商的1.62亿美元连同员工工资。全体工作人员马上展开工作,清理掉了数据中心的残留物,IT工作人员在晚上9点之前恢复了存储连接网络、防火墙和网络核心系统。如果不更换瞬态电涌抑制盒,重新开启这些系统会让设备处于险境。Wolffradt于是决定无论如何要更换抑制盒,不过他为备用数据中心配备了人手,作为一项防范措施。

到了晚上11点,另外的系统恢复上线,包括服务台和交通运输部在即将到来的暴风雪中监测桥梁和公路所需的摄像头。

另外恢复的还有财务系统和虚拟化应用软件。到了晚上,额外的系统投入运行,到了早上备用数据中心不需要接过处理全州工资的工作。Wolffradt回忆道:“我们在那次事件当中充分利用了国土安全部的语音通知系统,两次向政府部门主管和重要的工作人员通报最新情报。”他特别指出,数据中心火灾过后,传闻四起;因此,CIO必须与其他责任方经常沟通。随着事态的进一步发展,他本人随时向州长和重要政府官员汇报情况。

Wolffradt在博文中透露的一个教训是,让主要的企业系统放在彼此不同的地方,比如将电子邮件放在与工资单不同的设施(数据中心)。另一个教训就是:一旦发生火灾,总务管理和人力资源部门“是你最好的朋友”,会帮助你顺利渡过难关。他写道,想恢复数据中心运营,最棘手的障碍之一就是,说服警察和消防人员:IT工作人员可以重新进入数据中心。数据中心所在的大楼里面共有1000名州雇员,大多数人等待的时间比IT工作人员还长,等警报解除后,才重新进入大楼。

2014年4月20日,韩国果川市一幢办公楼的中间层燃起了大火。大火是从三星在这幢大楼的SDS数据中心开始冒出来的。ZDNet韩国特约撰稿人Jaehwan Cho在其推特帐号(@hohocho)上发布了来自韩国联合通讯社的图片,图片显示烟雾和火焰从大楼侧面冒出来,热浪导致碎片从外面不断坠落下来。

据Data Center Knowledge报道,三星的IT工作人员和大楼住户迅速被疏散,只有一名工作人员因坠落的碎片而受到割伤、擦伤及其他轻伤。

那场大火导致三星设备(包括智能手机,平板电脑和智能电视)的用户们无法访问他们一直试图获取的数据。在果川市第二个数据中心的恢复系统恢复服务之前,广大设备用户一度数小时无法访问内容,最后三星工作人员只好开博客致歉。

2009年7月3日,西雅图费舍尔广场一个配电室的火灾导致Authorize.net支付门户网站、微软必应旅游服务、Geocaching.com服务、Dotster域名注册服务、主机托管服务提供商AdHost以及另外几十个网站瘫痪。第二天早上才恢复供电。

《普吉特海湾商业杂志》报道,Geocaching和AdHost到第二天上午10点才恢复运行,而其他服务网站花了更长时间才恢复如初。据《普吉特海湾商业杂志》报道,那场大火显然是从烧坏的电缆管道(见上图)开始冒出来的,害得费舍尔通信公司(Fisher Communications)估计花费了1000万美元的维修和设备更换费用。

2012年10月下旬,桑迪飓风一路席卷弗吉尼亚州、特拉华州、马里兰州和新泽西州时,曼哈顿与美国东沿岸大部分地区一样失去了电力。海水风暴潮随之而来,冲上了街道,导致曼哈顿下城区和三州邻接地区的另外许多地方顿时陷入一片汪洋。

在曼哈顿下城区布罗德大街75号即Peer 1主机托管公司的所在地,这无疑是灾难恢复规划人员的噩梦。虽然备用发电机可以随时搬到远高于水位线的大楼18层,但是涌入大楼大堂、灌满地下室的那场风暴潮毁掉了放在那里的应急发电机燃油泵送系统。一旦浸泡在水下,系统电路不再工作。(纽约在9?11事件后实施的一项规定是,限制贮存在办公楼的燃油量)。因此,发电机开始用完供应有限的燃油后,这家公司无法获得新补充的燃油。就在几名员工设法赶到数据中心、帮助防止任何数据丢失的同时,Peer 1建议客户在数小时内有计划地关闭系统。

Peer 1不是关闭设施,而是成立了一支救援队,运送发电机所需的燃油。燃油摆放在街上(见上图),一路手递手送到17楼,也就是发电机的储油罐所在地方。储油罐及油泵可以将燃油输送到这层楼上方的发电机。Peer 1的客户(包括SquareSpace这家网站开发公司和Fog Creek Software这家在线项目管理软件供应商)为这支25个成员的救援队提供了人力,在10月30日晚直至10月31日,将燃油送到了楼上的发电机。

到10月31日午饭时间,他们终于灌满了储油罐,总算有机会休息一下,吃的午饭是靠步行经过布鲁克林大楼送过来的(由于曼哈顿街道堵塞)。Peer 1的灾难恢复方案当中既没有包括需要成立救援队,也没有包括步行送午饭。但这场飓风没有导致服务停运。

2007年11月13日,Rackspace的主机托管业务和在达拉斯同一个数据中心运行的成立才不久的Mosso Cloud公司因一辆失控的SUV而停运了数小时。

这辆大型四轮驱动汽车的司机是名糖尿病患者,他当时昏倒在方向盘前。这辆车不是突然转向街道边沿,而是完全加速直行,在丁字路口没有转弯,越过路缘径直开到远处的草径上。草径起到了斜面的作用,让这辆SUV得以在空中越过一排泊着的汽车。它冲下来后又撞上了一幢大楼,这幢大楼里面正好放着Rackspace数据中心的电力变压器,结果一下了断了电。

就在切换过程连接电力公司的备用市电的时候,大楼的冷却系统停了下来。计算处理过程没有受到干扰,因为计算设备靠正是为这类突发事件而部署的应急电池继续运行。电力公司接到急救人员正从一辆一头撞到变压器设备的汽车中抢救司机这个消息后,关闭了通向该数据中心的所有电力,结果扰乱了Rackspace的备用市电,于是数据中心的工作人员为大楼的冷却器启动了重启过程。

电池电力再次启动,应急发电机立马开始运转起来,而灾难恢复方案要求这样。尽管这次事件以及电网两次停电,数据中心的处理到目前为止没有受到中断。然而,冷却系统的大型冷却器的多步骤启动过程在重启进行到一半受到了干扰,事实证明要不是进一步排查故障,不可能让一些系统重启。

Rackspace总裁Lew Moorman在事件后不久发布的博文中告诉客户:“两台冷却器没有重启,导致数据中心过热。”计算设备散发的热量足以让温度直线上升,于是Rackspace的管理人员实施了“分阶段关闭设备的方法,以免设备损坏”,客户数据因而丢失。

停电一直持续到晚上10点50分,此时事件已过去了5小时。软件即服务提供商37signals(Rackspace为这家公司提供主机托管服务)告知自己的客户:“这一连串的糟糕事件不仅击跨了我们的系统,还击跨了我们数据中心先进的备用系统。我们会竭尽全力进一步分散我们的系统,以便让将来诸如此类的任何停运事件更少发生。”除了加大失去客户的风险外,这起事件据称还让Rackspace退款350万美元,损失惨重。

2015年1月9日,由于一名焊工的吹管不小心引燃了旁边的建筑材料,原准备作为亚马逊网站未来数据中心的一幢大楼发生了火灾。这场大火很快变成了维吉尼亚州阿什本一处地方的三级大火。几英里开外的地方也能见到滚滚浓烟。亚马逊发言人告诉美国广播公司新闻网驻地方办事处:这场大火造成约10万美元的损害,不过补充说“没有影响亚马逊运营的风险”,因为该数据中心还没有投入使用。

万一嫌火灾、洪水和四轮驱动车事故还不够闹心,总是会出现这种小概率事件:太阳风暴袭击地球大气层。太阳耀斑过后有时会出现所谓的太阳风暴,来自太阳表面的日冕物质喷射会沿着与之前的太阳耀斑同样的轨迹,远离太阳表面。

这一连串事不常发生,但是一旦发生,太阳耀斑似乎会为喷射清理出一条路线,以便高速喷射到太空。随着带电粒子接近地球大气层,它们会因高速而形成强磁性。磁场会诱导长长的导电材料,比如导电电缆。管道和电话系统提供了另外的长长导电体,能够捕捉到电荷。

这种威胁对伦敦劳埃德保险公司(Lloyds of London)来说足够严重,于是发布了一份风险评估报告:《北美电网面临的太阳风暴风险》。

据这份报道声称:“电力可靠性面临的一个严重威胁就是磁暴――太阳风暴在地球大气层的上层引起的严重干扰……它们诱导的电流会让电网系统出现过载,从而引发电压崩溃,或者更糟糕的是,损坏数量众多的价格不菲的特高压变压器。”

1989年,加拿大就遭遇了这样一起太阳风暴,电涌导致变压器损坏,结果魁北克水力发电公司的电网陷入瘫痪。据估计,1859年美国发生的一起规模较小的太阳风暴(名为卡林顿事件)让几名正在作业的报务员触电,并且导致几个电报局着火。1989年的那起事件导致东北电力协调委员会和中大西洋地区委员会的断路器和防护装备失效,几乎让成员电网出现连锁反应式崩溃。电涌损坏发电机的升压变压器后,新泽西州的一家核电厂不得不停止运行。

虽然所有这些场景让最身经百战的数据中心运营者也吓出一身冷汗,不过好消息是,本文中提到的所有企业组织都设法从任何灾难恢复方案根本预料不到的一连串事件后迅速恢复了过来。

武汉服务器托管

本文来自,经授权后发布,本文观点不代表老铁博客立场,转载请联系原作者。

发表评论

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息