新闻中心
NEWS
 

数据中心运营过程中存在的六大隐患

查看次数:3351 发布日期:2016/12/5 15:44:47

【转文】

      “数据中心”是互联网、云计算和大数据等产业的组成的重要基础设施,尽管许多企业为了降低一系列的商业风险,包括那些数据中心的风险,有业务连续性计划或灾难恢复计划,但有些企业却没有,或者他们就算是有计划但也过于笼统。当你在制定数据中心灾难恢复方案的时候,你的目标是为了保护公司在信息技术、通信和人员方面的投入。一旦遭到破坏,你的数据中心要么是完全不受影响要么就可能遭到彻底的毁坏。



      通过对数据中心决策者的广泛调查,商业分析企业451研究公司发现,82%受访者表示拥有某种形式的灾难恢复(DR)计划,这意味着将近五分之一的企业的灾难恢复(DR)计划没有到位。研究发现,93%的组织拥有业务连续性计划(BCPs)。随着数据中心越来越面临着风险,如今的企业目前广泛使用灾难恢复解决方案,没有什么理由和借口不制定这些计划。

      如何预防电气火灾这是企业必须要了解到的层面,首先在数据中心中添加一个声音报警和两个分解总线。在DR站点恢复了IR操作运营,而这也仅仅是针对最高级别的优先系统。有了便携式空调设备、临时通信和小型不间断供电设备,我们就可以恢复手机通讯。需要花费几个星期的时间才能替换大型交换机烧毁的部件,但是,我们还是需要了解哪里出现了故障,以便杜绝再次发生此类事故。



以下是我们发现的六个隐患点:

隐患点一:空调设备尽管我们配备了多个空调设备,但是这些设备都公用一个接线总机。只有两个冗余单元和一组不间断供电设备(简称UPS)室单元的电源是分开的,设计师认为这种思路是合乎逻辑的,但是,实际上这是否定了备用的想法。我们还未能够正确设置总断路器上的跳闸电流,工程师们和承包商还没有调整好断路器。因此,当一台空调设备遇到问题时,主断路器就会跳闸现象,而不是单个支路断路器跳闸,这样会造成80%的冷却资源浪费。红外线扫描可以在接线总机中完成,但是只有一部分空调设备能够运行。未达到满载,设备也不会温度过高,因此,在测试过程中,我们也不会发现连接松动的现象。

      第二个连线总机跟第一个连线总机一样,在同一个电器柜中,这样做的目的是满足财务预算,因此,两条电源总线是彼此相邻的状态。当一个发生爆炸时,也会同样引爆第二个,然后我们就什么也没有了。



隐患点二:数据中心设计在灾难恢复报告中,我们所要检查的另外一个项目就是数据中心设计。因为,一台发电机要供整个大楼使用,转换开关设置在地下室、接线总机的上方。并没有感知到即将发生的电源故障,但是被毁坏的接线总机却会阻止我们。共用一个发电机,我们本应该设置多个自动交换机提供数据中心内数据转换。用这种方式,如果将电源引入到数据中心中,且建筑内其他设备未受影响,那么,发电机便会开始工作,数据中心也会恢复紧急电源的使用。

      我们反对电气室与数据中心相邻过近,因为,我们不希望电气涉及到计算环境中。我们曾忽视了这一点。电气室空调设备运行正常,数据中心中设备停止运行,此时,电气室会产生正压。当门打开时,爆炸所产生的热量和烟雾会随之发散。



隐患点三:烟雾探测器的问题早期的预警烟雾探测器会立即识别危险,而且还可以控制气体灭火,虽然其设置方式并非正确。因此,发现危险源时该探测器并不是发出警报,而是根据它感应到的烟雾,触发其释放气体的功能。烟雾颗粒同样可以污染其他正常运行设备的过滤器。唯一一个好消息是,与两个备用设备一样,电气室内的空调设备都在同一个电路上,因此,可以继续运行。没有制冷设备,UPS会迅速升温,然后关闭之前的计算机房。UPS应该走旁路,维护主机电源,但是,测试中我们却发现,旁路连接出现错误。只有一台空调设备,受到损害的可能性非常大。


隐患点四:优先等级UPS可以通过网络进行按序服务关系,但是,由于存在优先等级问题,这个想法一直也没有实现。我们还了解到,其实并不需要Emergency Power Off按钮,因此,也不会存在“高架活动地板”,不需要使用任何限制。工程师们指出了该行业一些非常危险的按钮,“因为每一个数据中心都会有一个危险按钮,”但是其中并不包含任何防护按钮,防止其被过早使用。数据中心管理人员将会面临无数个挑战任务。我们要学会如何能够将这些实际过程中会接触到的任务进行优先等级排列。


隐患点五:DCIM报警当我问到,数据中心基础设施管理(简称DCIM)工具会提醒我主要警告,但是唯一的局限就是ASHRAE的允许温度,这个温度限制高于数据中心的实际冷却温度。由于冷却温度的设定是建立在之前的推荐温度值的基础上,而且要比推荐温度更低,因此,在还未出发报警之前就已经宣告失败了,我们还需要花费很多时间来进行救灾抢修。

      DCIM还会显示出,我们所设置的10个空调设备中有8个都宣布设置失败,同时也陈述了失败的原因和影响因素,我们没有为DCIM系统购买机械设备模块,因此,当冷却单元装置失灵时并没有发出警告提示。这一点也会被记录到灾难恢复报告中。



隐患点六:缺乏训练和标准实际工作中,我们需要进行多次DCIM培训,GUI非常复杂,会提供许多详细的数据,使我们辨识起来非常困难。我们尝试重新对GUI进行修订,这样,我们可以看得更加清晰明了,但是,其可配置性却非常低。



 


  • QQ咨询

  • 在线咨询
  • 点击立刻咨询
  • 点击立刻咨询
  • 点击立刻咨询
  • 销售热线

  • 0551-63613397