新闻中心
news Center
一、机房容量运维管理
机房容量包括空间、承重、电力、冷量和风量等方面,理想情况是在数据中心整个生命周期中这些容量能够维持均衡发展,最大化地延长数据中心的寿命。然而在实际运维过程中,经常会出现图16(a)所示的情况,即当风量达到100%时,已经无法继续增加机房容量,但电力、冷量却还有14%的富余。通过CFD技术优化之后,电力、冷量和风量指标不仅同时达到 100%[图16(b)],而且对于空间可以提高11%的有效利用率,进而可以延长数据中心的使用寿命。

二、依托模拟优化监控
监控是数据中心运维的核心工具,仅仅依靠监控是无法克服最小化运维的风险,仅依赖监控无法解决以下几类问题。
1.只能确定传感器所在位置的温度,不能确定传感器之间的温度分布
温度云图多采用数据中心智能运维系统统(Data Center Infrastructure Management,DCIM)绘制。图17中机柜间的温度云图是通过传感器的监控值采用差值的方法计算出来的,近似表示整个机房中的热分布情况。
图17 通过差值获得的热图(温度截面)
通过这些点的差值获得的热图并不能从根本上反映出设备过热的问题,而通过CFD模拟则能够真实地反映机房中的温度分布情况,不仅能够显示当前存在问题的区域,同时还能为未来IT部署提供决策依据。图18是通过CFD模拟得到的结果,可以清晰地看到与图17的差别,CFD模拟的温度分布结果也更加准确。

图18 通过CFD模拟获得的热图(温度截面)
为了减少二者之间的差异,可以在所有IT设备的进出口与机柜前门布置更多的传感器,这样可以大幅度提高精度,但是需要考虑如何确定布置位置与数量才能真实反映数据中心的温度情况。如果在任何一个位置都布置了传感器,虽然能捕捉到每一点的温度,可以使得与CFD模拟情况的差异减至最小,但是在实际情况中,这种方法不仅复杂而且实现难度较大。
2.不能捕捉部署设备时的风险
在现实情况中,布置的传感器可能不能显示IT设备的真实进口温度。为了解决这个问题,按照ASHRAE标准,可以在机柜前门处布置传感器,分别靠近顶部、底部和中部进行布置,如图19所示。

图19 在机柜前门处布置传感器(靠近顶部、底部、中部)
图20显示的温度截面是由CFD生成的。尽管是按照规范要求布置的,但传感器也没有能够准确地反映机柜进口处的温度分布。就图20来说,可以看到一个小的热点在这个传感器的位置,但该热点并不能被监测到,所以这三个传感器生成的热图不能反映它们之间的温度梯度。
图20 CFD生成的机柜温度截面
相比较来看,图21是一个机柜传感器能够真实反映机柜进口温度分布的案例,这个例子中的传感器不仅捕捉到了机柜顶部的热点,同时传感器之间的温度分布预测的效果也很好。

图21 机柜传感器能够真实反映机柜进口温度分布示意
注意到IT设备的进口温度,并绘制IT设备的最大进口温度,可以发现过热IT设备反映在传感器上的温度仍处于绿色的区域,而这种现象并非不可能出现。如图22所示,注意IT设备进口的流线,可以看到机柜底部存在回流引起过热的情况,即使全部安装好盲板,泄漏仍会出现在导轨之间。
因为机柜安装导轨造成泄漏情况的出现,在机柜进口和IT设备进口之间会存在一定的温差,同时回流空气也会与冷空气混合。虽然传感器能够准确显示机柜进出口的温度,但是不能捕捉到混流的影响,这意味着传感器无法捕捉到运行设备过热的风险,因此此时的监控并没有起到保证设备安全的作用。

图22 导轨之间泄漏情况模拟示意
3.不能预测每次部署IT设备对冷空气分布的潜在影响
在图23这个案例中,IT经理往仓库里增加了一台刀片服务器,并计划将其安装到机房里面,服务器为7U,需要的安装功率为500W。按照符合ASHRAE标准的温度传感器来监控部署,通过环境监控系统得到所监控的机柜温度为22.2℃。

图23 安装刀片服务器通过传感器监控的示意
虽然得到监控的机柜温度为22.2℃,看似没问题,但是实际上设备是过热的。通过用流线捕捉过热IT设备入口的空气流动,可以看出热空气流经机柜底部(图24和图25),但这个问题在机柜监控系统中并没有被发现。
图24 传感器监控机柜示意

图25 CFD流线捕捉模拟示意
通过以上这个案例可以特别说明,部署IT设备时需要考虑冷空气分布的潜在影响。
4.不能很好地进行设备部署以分析未来趋势
很多数据中心运维人员通过趋势分析做部署规划,从而实现最大化的容量。这个想法是通过使用监控系统来收集设备信息,从而进一步对未来设备变更的非期望影响做出趋势预测。如图26所示,示例的数据中心设计冗余为N+1,配置4套DCIM监控系统,初始容量为IT设计负载的20%。在案例中将进行一系列的设备部署模拟,在整个部署过程中将重点关注其中一个IT设备和距离它最近的传感器,并将设备进口温度和传感器的温度进行对比。其中,图26中的右侧图表显示每次部署或者不同时间两种温度的变化趋势。

图26 数据中心趋势分析温度监控初始状态
在运维时,监控系统捕捉机柜温度,通过监控来告知业主随着部署所导致的任何温度的上升情况。通过可能做出的部署来看,在图27中可以看出,该IT设备入口温度有一个凸起,但是机柜的传感器未能捕捉。

图27 机柜传感器未能捕捉到某入口温度凸起示意
根据图28所示,在每次部署时IT设备入口温度都会有变化,到第8次部署IT设备时入口温度才随着每次部署稳步增长,然而在这个过程中,机柜传感器仍然没有较大变化,所以需继续下一次部署。当进行第9次部署时可以明显看出IT设备过热了,但监控系统却没有监测到。

图28 IT设备入口温度随部署变化示意
同时对比分析温度趋势29可以看到,当设备已经过热时,机柜传感器却刚刚感知温度开始上升,因而事实上它报告的温度比IT设备入口温度低了 19℉,这种不同步的现象一旦发生可能造成十分严重的后果。

图29 温度趋势对比
针对机柜传感器对于实际温度上升反应具有延迟的现象,假设再做一次相同的部署,通过CFD分析可以注意到每次部署时气流流动的变化情况,这种变化可能会受到机柜中IT变更的影响,或者受其他部分基础设施变化的影响。由于数据中心是一个动态变化的空间,每一种微小的变化都会影响周围的气流形式,在图30中右侧图表的第6次部署可以开始看到机柜底部有热空气流动,这些空气与地板出风口的冷空气进行混合,到了第9次部署时这些热空气会上升到足够高的温度,然后这个位置开始出现热点。

图30 机柜热空气流动与空气混合CFD模拟
然而机柜传感器并没有监测到这个问题,这也是导致设备过热问题的主要原因。意识到这个问题后,应根据图示回到时间段的第8次部署,选择使用监控结果绘制趋势线来预测未来规划部署。但事实情况是,即使用保守预测,其趋势也不能给出过热的预先提示。
5.不能很好地进行空调失效分析
当进入运行失效场景时,监控只能被动进行反应,在没有设备故障的情况下,无法获得在失效情况下数据中心出现的各种状况的数据。为了维持数据中心的弹性,模拟是测试数据中心极限的唯一无风险方法。举例来说,评测一个N+1冗余方案且共6个冷却单元的数据中心,测试任意一个空调失效的场景,并评估冷却基础设施的弹性。为了强调关联失效空调预测的影响,选择跟踪3组机柜,通过查看机柜中安装的IT设备情况来判断其是如何被每种失效场景影响的,如图31所示。
图31 三组机柜空调失效模拟
在图32所示的这个机柜中,绿色的IT设备表示运行安全,红色的IT设备表示运行过热(机柜的温度在ASHRAE标准允许的范围之外)。当所有空调全部开启时,所有设备均为绿色,设备安全运行。
图32 IT设备运行安全与过热对比模拟分析示意
当模拟空调失效时,不同的IT设备将出现过热的情况,在实际情况中是不可能在运营的数据中心中进行这样操作的,否则将导致严重后果。因而在这种完全杜绝风险的环境中进行模拟是处理这种较为棘手场景的唯一方法,如图33所示。
图33 机柜空调失效时过热模拟分析示意
通过使用CFD模拟可以清楚地知道哪个设备会因冷却失效而宕机,进而帮助业主能对数据中心实现更多有效的控制,然后通过实施改善措施重获冗余。通过模拟来实现任何潜在的改进措施,可以进一步量化性能,同时在实施前评估该结果是否能够满足要求。总的来看,监控从定义上来讲是被动反应(图34),只能体现当前正在发生的情况以及已经发生的情况。

图34 监控被动反应流程
而模拟才是真正可以实行预测的方法,它不仅可以对空调进行失效分析,营造出不同预测风险出现情况下的具体场景,并能通过模拟结果提出解决方案,还可以测试未来变更计划,避免风险等(图35)。

图35 模拟预测的不同风险下的具体场景
-END-
免责声明
除非特别说明,本站所载内容来源于互联网、微信公众号等公开媒体渠道,目的在于传递更多信息,不确保文章的准确性,不代表本站观点,仅供参考、交流之目的。转载的稿件版权归原作者或机构所有,如有侵犯版权请告知,我们将在24小时内删除!