《google数据中心文集.pdf》由会员分享,可在线阅读,更多相关《google数据中心文集.pdf(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、揭秘谷歌数据中心李典林 TT 服务器技术专题之“组策略命令指南”Page 2 of 54 揭秘谷歌数据中心Google 将其数据中心技术作为一个核心竞争力,很少对外公布其技术细节,因此搜索巨人的数据中心一直是个谜。去年,Google公司第一次允许媒体记者进入其位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。在本期技术手册中,我们带您深入参观谷歌数据中心,介绍谷歌先进的冷却技术,还有其最新的集装箱数据中心以及微模块。图文解析谷歌数据中心谷歌数据中心的处理器日以继夜地处理着全球网民的搜索请求、Youtube 视频和邮件等。今天我们就这些有限的图片管中窥豹,更多的是猜测,分别从制冷、
2、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者,并与同行们共勉。图文解析:让我们深入参观Google 数据中心谷歌冷却技术Google 将其数据中心技术作为一个核心竞争力,很少对外公布其技术细节,因此搜索巨人的数据中心一直是个谜。近日,谷歌公布了其数据中心能耗发展的图表,在图表中显示近年来谷歌在能耗控制方面有了明显的进步。深度研究:Google 最新数据中心自然冷却方案 TT 服务器技术专题之“组策略命令指南”Page 3 of 54 谷歌集装箱数据中心数据中心模块化最近较为热门,其中较为典型的一种模块化实现方式就是采用集装箱数据中心,国内在这方面的推广也有一段时间了,但实际应用却又不多,
3、那么集装箱是否适合中国,业界又是如何来打造的?针对这些问题笔者从一个google 的集装箱数据中心专利(其实该专利在2009 年已经公开,网络上也有不少相关图片),以及网络上相关Google的集装箱数据中心的视频,做一些最粗浅的分析以飨读者。Google 集装箱数据中心原理介绍Google 集装箱数据中心制冷Google 集装箱数据中心供配电Google 集装箱数据中心建设布局谷歌数据中心微模块2005 年后,google 不再采用大体量大颗粒度的室外型集装箱,而改用了室内型更小颗粒度更为灵活的微模块技术打造其庞大的基础设施。针对这种变化,本系列文章根据google的模块化数据中心冷却技术的一
4、个专利(已于2012 年公开),以及在2012 年 google 发布的一系列数据中心照片和北卡数据中心的街景视频,探索Google 数据中心微模块。探秘 Google 数据中心微模块解密 Google 数据中心制冷模块Google 数据中心微模块布局Google 微模块数据中心建设 TT 服务器技术专题之“组策略命令指南”Page 4 of 54 图文解析:让我们深入参观Google 数据中心近日,Google 公司第一次允许媒体记者进入其位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。这些中心的处理器日以继夜地处理着全球网民的搜索请求、Youtube 视频和邮件等。虽然公布
5、的只是一些图片和非常有限的视频资料,且没有详细注释说明,但如古老的谚语所述:一张图片胜过千言万语,今天我们就这些有限的图片管中窥豹,更多的是猜测,分别从制冷、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者,并与同行们共勉。一、制冷篇从下图可以看到这个数据中心的冷站规模很大,整个房间管道林立,并且色彩斑斓非常好看。空调管道采用了Google 企业标准色来区分不同管路的功能,比如绿色是冷却水回水管、黄色是冷却水供水管、蓝色是冷冻水供水管,深红色(或者冷机侧的粉红色管)是冷冻水回水管,白色的是消防管路等来区别不同的功能,以便运维人员快速定位并查找问题。还有在IT 设备侧也采用同样五种颜色的网线等
6、,加上不同数据中心不同主题的装修风格,这些都是数据中心颜色标识管理的典范。下图的左侧是大型冷水机组,右侧是板式热交换器,以便在室外温度较低时候采用板换散热实现水侧节能。Google 也非常重视数据中心的耗水问题,据他们估算采用高效节能数据中心每年可节约几亿加仑的饮用水。TT 服务器技术专题之“组策略命令指南”Page 5 of 54 还有一些运营中的小细节也考虑非常周全,比如管路屋顶等地方采用了很多的电动吊装葫芦链条方便重型设备的维护更换吊装,比如在管路底部采用了中间凹两边凸的滚轮型支撑,减少管路振动和拉伸形变产生的物理应力,比如楼层间的竖管采用了 U型弯曲以便减少水温变化和建筑形变带来的隐形
7、损伤,以及冷机周边地面的应急排水口,最后在偌大的机房中运营人员采用同样是Google 标准色的 G-bike用于现场巡视等运维和工艺细节。二、微模块机柜篇下图为美国俄克拉荷马州的数据中心,整个机房在大量服务器LED指示灯的闪烁下显得非常整洁和梦幻。从这个整机房的俯视图看,数据中心采用了厂房式大开间框架结构,封闭热通道的一排排机柜构成庞大微模块阵列,机房顶部是供电网络桥架和消防管路,服务器和交换机的状态灯闪烁着,只有极少量的机房级照明。整个房间面积很大,走道以及顶部空间都非常宽敞,但设备区却较为紧凑,机柜间冷通道才两块砖多点的距离(标准砖宽度为600mm),其中热通道占用了大约两块砖 TT 服务
8、器技术专题之“组策略命令指南”Page 6 of 54 的距离,而且服务器机柜的深度较短,也就一块砖多些。从图片较近处还可以发现有蓝色布帘密封的地方,空缺的位置是留给服务器机柜的,这也说明了Google 的服务器部署是以机架为单位快速安装部署的。该蓝色布帘密封可以隔绝冷热气流的混合,减少冷量的浪费,体现了精细化运营的思想。高密度的服务器采用全正面维护,顶部为密集的TOR 交换机单元。从这个图还可以看出Google 采用创新的空调置顶散热方式,整个机房大环境作为冷通道提供冷量给服务器吸入,加热后的热空气在封闭通道内上升,然后通过热通道顶部的空调盘管制冷并被几个烟囱状导风管和大散热风扇重新循环回外
9、部冷环境。这种空调置顶布局虽然存在着盘管漏水、更换维护较难等风险,对产品质量和施工工艺要求非常高,但是其气流组织较为合理,比如热气流自动上升,冷气流自动下沉,可以减少风扇的功耗,且机房大冷池环境可以作为缓冲池等,减少局部空调故障引发的热保护。据相关资料显示Google 微模块的整个热通道温度非常高,像个大烤箱,温度可以达到49 摄氏度,以至于一旦必须进去维护,那么服务器必须关掉才行。采用热通道封闭可以提供一个较为舒适的现场运营环境,热量只 TT 服务器技术专题之“组策略命令指南”Page 7 of 54 被限制在热通道中并被冷冻水带走,考虑大开间的铁皮厂房冷量密封保温特性不太好,但因为 Goo
10、gle 服务器的高温工作特性(如图中Google 服务器的深度较短,大约只有 600mm 多的深度,散热会比较容易),送风温度高达27 摄氏度,因此这个较高温度下的冷量传递损失不会很大,围栏效应的影响几乎可以忽略。从上面这张照片可以看到Google 微模块热通道内部的一些细节,比如热通道宽度大约是两块标准地板砖,里边安装的是机柜顶部空调盘管的安装支架和加固支撑,通过地板底下的快接软管提供冷冻水给热通道顶部的空调盘管提供冷冻水。从冷冻水管的数量和密度上看,顶部空调盘管也做了模块化冗余设计,是个很不错的设计。服务器全正面维护,每台服务器采用三个分布式较大风扇散热,绿光来自服务器内部 LED状态灯。
11、Google 自行设计的服务器采用尽可能少的能耗,并控制风扇转速足够低,只要服务器内部温度不要超过设定值就可以了,处处都体现节能。Google 在供电和制冷等方面总能打破常规,而没有采用商用的传统UPS 和精密空调方案,体现了创新颠覆的思想,甚至如右边图Google 还申请了三明治服务 TT 服务器技术专题之“组策略命令指南”Page 8 of 54 器的专利,采用液冷散热片,上下两个服务器靠此散热片内部的冷冻水以及循环风扇带走热量等。当然也不是 Google 的所有机房都采用这些创新的散热方案,比如一些网络设备间和 POD 小机房等,如下面的这两个例子。该网络设备间采用了传统的风管上送风或者
12、地板下送风方式散热,双路冗余高可靠供电,但是在这些传统机房模块中Google 都采用了简单低成本的塑料帘子隔离冷热通道方案,避免了冷热气流直接混合短路,也大大提高了其能源利用效率。据早期谷歌发布的一个POD 机房优化视频中可以看到,通过对这些传统机房的精细化运营,比如机房CFD仿真改善气流组织、采用如上的冷热帘隔离、提高送风温度、安装了蓝色LED灯用于照明等等措施,使得 PUE从原来的 2.4 降低到 1.5 以下,这也说明即便不用很多创新的思路,通过运营优化也可以实现较好的节能优化效果。三、Google 服务器篇:步入 Google 的大型数据中心,整个机房的服务器阵列非常整齐壮观,海量的服
13、务器风扇同时运转带来巨大的噪音,以至于进入数据中心必须佩戴防噪耳塞。从下图可以看到 Google 的服务器上架有两种配置方式,分别是低密的十五六台一个柜子,以及高密的每机柜接近三十台左右(可能采用类似facebook 的 1.5U 高效风 TT 服务器技术专题之“组策略命令指南”Page 9 of 54 扇设计),TOR 交换机置顶,PDU 和网络快速接口都在左侧。每台服务器多含有2个或者更多的子机,服务器没有前面板也无上盖板成本更低散热更好,服务器通常很短,采用不同颜色的网线做功能区分,网线和电源线采用快插接口,plug and play。机柜底下滚轮设计方便整机架快速部署和搬迁,全正面维护
14、,方便现场快速维修和免工具更换。从这些照片也可以看到不同版本不同类型的Google 服务器设计,和早前发布的带铅酸电池服务器设计不一样,新版本的服务器结构更为方正美观,但即便如此这些自行打造的简单易维护服务器要比标准的商用服务器要便宜不少。尽管仍被视为互联网公司,Google 已经成为世界上最大的硬件制造商之一,因为它的设备多数是自己制造的。1999 年的时候,H?lzle 从“三个开电子商店的家伙”那里买了2000 个剥离下来的电路板。通过改造,去除不必要的部件,Google 构建了自己的服务器(DIY服务器的价格是 1500 美元,而当时的商用机价格约为5000 美 TT 服务器技术专题之
15、“组策略命令指南”Page 10 of 54 元),考虑到其上百万量级的服务器设备,那么DIY 服务器带来的成本节约会是天文数字。由于 DIY 简单易维护设计,如果服务器出了故障,甚至可以免工具快速维修,如果实在无法维修则直接报废拆解成电子垃圾回收。且Google 在定制的服务器内部安装了分布式的带电池UPS,可以省掉传统数据中心大量UPS 的采购成本,并且采用该内置 UPS可以实现供电效率99.9%,相比传统的 UPS方案也可以实现数据中心总节能 15%,在能源紧张运营电费高企的今天也是非常大的费用节省。为了统一管理自己的服务器,Google 开发了一个软件系统,开发者能够通过这个系统指挥数
16、千个电脑,如同一个计算机一样。在 2002 年的时候,它创造了Google File System,可以在不同的机器上顺利地传送文件。MapReduce 是Google 为编写云端服务而开发的系统,它的开源版本 Hadoop 已经成为业界标准。另外,Google 还开发了一个自动化的决策系统 Borg,用于决定那条机器最适合某项任务。这对服务器集群的稳定性提出了更高的要求。为此,Google 内部有一个团队,叫做 SRE(网站可靠性工程团队),他们的任务就是使用各种方法,对服务器进行破坏,以检测公司进行危机处理的能力。每年,SRE 都会进行一次虚拟的战争,叫做 DiRT(disaster re
17、covery test)。攻击是虚假的,但是几乎和现 TT 服务器技术专题之“组策略命令指南”Page 11 of 54 实一样,危机管理人员必须按照处理程序来做,如果他们不能找出处理方式,攻击就必须停止,以免影响到真正的用户。在 Google 公司内部的某个墙上展示着一排排的主板,那些代表着Google 成立以来自己打造的不同时代的服务器,其中有一块标明着2008 年 7 月 9 日,那是Google 有史以来的第一百万台服务器,但这是个累计的数字,并不意味着那个时间 Google 已经拥有百万台服务器的规模。四、数据中心建筑篇Google 每个数据中心的选址都是非常谨慎的,以下图哥伦比亚河
18、畔的Dalles数据中心为例,选择建设在河流旁边开阔的谷地,且可以看到其典型的建筑风格是大开间低层厂房结构,多为结构较为合理的长条矩形状,大型架空冷却塔和底下的储冷罐位于建筑边上,附近是两个为数据中心配套的变配电站。直接采用附近水电站便宜的绿色充足水电来给数据中心供电,空气质量很好。类似选址的还有比利时数据中心采用运河的水处理后来散热,以及芬兰湾哈米纳数据中心直接采用海水来给数据中心散热,而不像国内数据中心受限于种种原因大型DC多在沿海城市,气温及空气质量不好、电力容量少电费高、多层建筑租金昂贵等。TT 服务器技术专题之“组策略命令指南”Page 12 of 54 Google 的 IDC选址
19、多位于能源较为丰富,气候条件较好的地方,一则可以大量使用绿色低成本的能源,同时还可以利用较为优越的地理气候条件实现更为节能的自然冷却,目前其主流的数据中心年PUE基本可以达到 1.2 以下的很好水平。且数据中心和周边自然环境融合很好,比如数据中心周围倘佯的小鹿,漫山的野花,氤氲的冷却塔蒸汽,静谧的河流以及雪地垂钓等,都体现了人与自然的和谐相处。TT 服务器技术专题之“组策略命令指南”Page 13 of 54 五、结语Google 非常注重自己的信息安全,这一点也可以表现在使用过的硬盘全被销毁,就数据中心的创新技术而言,Holzle 说 Google 付出了鲜血、汗水和眼泪,也希望其他公司也能
20、付出自己的艰辛来自己打造,成就更多的发现和伟大。通常 Google 透露出来的都是一两代之前的技术,虽然这次这么较大规模的公开其数据中心的秘密,但一如Google 自己说过的,一旦他们自己的员工看过了Google 正在打造的 2013年下一代数据中心和服务器集群,那么他们将无比抱怨目前的这些设计。即便如此本次披露的这些数据中心也像是一件件精美的艺术品,使用的技术也是业界非常领先的,让我们在拭目以待Google 更多更新数据中心技术的同时,也同时能够从这些资料中学习并理会其思想,并同样有孜孜不倦的创新精神和通过专注实现完美设计,再次与大家共勉。TT 服务器技术专题之“组策略命令指南”Page 1
21、4 of 54 深度研究:Google 最新数据中心自然冷却方案Google 将其数据中心技术作为一个核心竞争力,很少对外公布其技术细节,因此搜索巨人的数据中心一直是个谜。近日,谷歌公布了其数据中心能耗发展的图表,在图表中显示近年来谷歌在能耗控制方面有了明显的进步。在2010 年第一季度,谷歌新建的数据中心综合电力使用效率为1.16(PUE),其中一个数据中心的PUE值达到了 1.09。从公布的这些图表中,在纵向上我们可以看到Google 在全球各地的多个数据中心PUE控制都已经达到非常高的水平;在横向上看曲线整体倾斜向下,说明还是个逐步改进、不断优化的精细化运营调优过程。这些图表的另一个显著
22、特点是各个数据中心的PUE值随着时间轴,不管是在不同的季节,还是在一天的不同时间点上都表现出较大的波动性,说明Google 数据中心的自然冷水平非常高。结合室外自然环境温度,尽量利用外界冷源带走热量,能不开启机械制冷就不启动。在散热方面只给够用的冷量,绝不浪费。TT 服务器技术专题之“组策略命令指南”Page 15 of 54 左:Google 多个数据中心的多年PUE曲线 右:Google 某一数据中心的日PUE曲线本文针对 Google 数据中心的这些特点,将介绍Google 位于欧洲的三个不同实现自然冷却方式的机房,这些机房都实现了100%自然冷却,都是没有chiller(制冷机组)的典
23、型应用案例,分别是比利时水侧自然冷数据中心、爱尔兰空气侧自然冷数据中心和芬兰海水直接冷却数据中心。当然本文提到的这些数据中心技术和机房所在当地的气候、政策、资源等相关,且属于完全定制的数据中心,不好为国内直接移植和借用,但思路和创新精神非常值得国内同行学习借鉴。1、比利时数据中心Google 比利时的数据中心位于Saint-Ghislain,该数据中心的第一阶段在2008年初投入,并于2011年 Q1完成全部阶段设计。2011 年 Q1的 PUE可以低达1.09,而全年平均 PUE可达到 1.11。该数据中心采用蒸发冷却系统,从附近的工业运河抽取用水。“我们设计并制作了一个站内的水处理厂,”K
24、ava说道,“这样我们就不用使用供应城市的可饮用水”。该数据中心利用运河的冷水来带走热量,并自己修建水处理厂,再将处理后的运河水给数据中心提供冷量,只采用冷却塔来散热,无 chiller,实现了 100%水侧自然冷机房,是谷歌的第一个完全自然冷的数据中心。TT 服务器技术专题之“组策略命令指南”Page 16 of 54 距离数据中心大约400 米外的工业运河,Google 建设了现场的水处理工厂,直接从运河中抽取河水。由于运河的水质比较糟糕,必须过滤处理并净化到工业用水标准,但 Google 也不会将河水过滤处理到非常干净的水平,只要可用于制冷散热即可。然后用水泵将净化后的冷水输送到模块化储
25、冷大水罐,再供给到各个冷却塔,用于后续蒸发冷却。这个过程结果不仅冷却了服务器,还清洁了水源,当地的部长也称赞 Google 说这是一次双赢的合作。TT 服务器技术专题之“组策略命令指南”Page 17 of 54 整个水处理厂的污水处理过程如下图所示:Google 在比利时的数据中心中采用了模块化的无chiller自然冷却系统,通过下图中的热交换器热交换原理,将室内的热量通过存于水箱中温度较低的、处理过的运河水从冷却塔带走,实现无需机械制冷的目的。TT 服务器技术专题之“组策略命令指南”Page 18 of 54 比利时的气候几乎可以全年支持免费的冷却,平均每年只有7 天气温不符合免费冷却系统
26、的要求。Kava指出,机房温度不需要像以前那样低。在2008年的时候,美国加热冷冻及空调工程师协会(ASHRAE)建议数据中心的温度应保持在20到 25 摄氏度之间-但 Google 建议将其保持在 27 度以上。“构建一个高效的数据中心的第一步就是简单的提高它的温度,”Kava说,“机器、服务器、存储阵列、任何东西在比一般数据中心保持的温度高的多的地方都能很好的运行。对我而言,任何数据中心在18 或 20 摄氏度以下运行都是相当可笑的。”TT 服务器技术专题之“组策略命令指南”Page 19 of 54 在比利时这里,有时候会热的连服务器都不能运行,这时 Google 就会将这里的工作移交给
27、其他数据中心负责。Kava 没有给出任何细节,但他表示这种数据中心之间的工作交接涉及到一个叫做 Spanner 的软件平台。这个 Google 设计的平台曾在 2009 年 10 月的一个谈论会上有所提及,但是这是 Google 第一次公开确认 Spanner 确实有在使用。根据 Google 在 2009 年的讨论会上的陈述,Spanner 是一个“存储及计算系统,遍及他们所有的数据中心,并基于限制及使用特点来自动转移和增加数据和计 TT 服务器技术专题之“组策略命令指南”Page 20 of 54 算的副本。”这包括涉及带宽、丢包率、能源、资源及“失败模式-比如当数据中心内部出现错误的时候
28、。2、爱尔兰数据中心Google 爱尔兰的数据中心位于都柏林,由于是已有退役建筑-市长大厦翻新改造而成的,由于Google 在欧洲没有足够的运维人员,所以希望将该数据中心设计成空气侧的自然冷却机房。该数据中心实现了100%的空气测自然冷却,采用直接蒸发制冷技术,并且定制了个热回收单元,全部工程完成于2010 年上半年,是Google 在欧洲的第二个无chiller数据中心。都柏林具有非常好的气候条件,一年绝大多数时间天气都非常不错,由于该数据中心受已有建筑结构和散热供水等的限制,没法安装大型的冷却塔,因此采用了模块化的 AHU 方案。从室外取自然空气送入到混风室跟机房内回风混合,经过滤和加湿等
29、环节,用AHU 风扇送到直接蒸发盘管进行冷却,最后通过送风管道进入机房。进入机房的冷空气经 IT 设备加热后,采用热通道封闭方案隔离热气流,部分参与回风,部分则 TT 服务器技术专题之“组策略命令指南”Page 21 of 54 直接排放到室外。直接蒸发制冷技术在夏天用于调峰,比如在高温天气冷却室外热空气,也可以在干燥的冬天用于机房湿度调节。3、芬兰海水制冷数据中心在 2009 年的二月份,Google 耗资 5200万美元购买了一座位于芬兰Hamina(哈米纳)的废弃的造纸厂,他们认为这座拥有56 年历史的建筑是建设其众多服务于大量网络服务的大规模计算设施之一的理想场所。Google 和 D
30、LB公司一起将其进行改造设计成数据中心,目前已经完成第一阶段的测试和运行。TT 服务器技术专题之“组策略命令指南”Page 22 of 54 这个数据中心的独特之处在于采用了100%的海水散热。Google 利用该造纸厂已有建筑,包括造纸厂原有水下通道,并采用模块化制冷单元和闭式的内循环冷冻水(淡水)对开式的外循环冷却水(海水)的热交换器传热,然后将升温后的海水送到室外的温度调节房,这个房间的主要作用是将送出的热水和进入的新鲜海水进行混合。在回到海中之前,Google 会用更多的海水来冷却它。“当我们将水排出到海湾的时候,它的温度和湾内海水温度会很相似,”Kava说,“这就将对环境的影响降低到
31、最小。”虽然这个数据中心供回水的Delta T和取得的 PUE值Google 暂时没有透露,但相信应该是非常低的水平。TT 服务器技术专题之“组策略命令指南”Page 23 of 54 根据 Kava所说,公司的环境许可并没有要求控制水温。“这让我自己感觉很好,”他说,“我们不是只做我们被要求做的。我们去做那些我们认为对的事情。”这是一个关于Google 很平常的消息。但是Kava指出那些 ISO 认证说明这家公司正在不断努力达到它的目标。“当局者迷,局外者清。这时第三方的加入就非常必要。”TT 服务器技术专题之“组策略命令指南”Page 24 of 54 当然采用海水来散热有很多技术上的挑战
32、,需要做热仿真,包括各个季节海水的不同温度、水垢带来的影响,以及海水对管路的腐蚀性等。比如在Hamina数据中心中 Google 采用了玻璃纤维材料的水管(上图中乳白色管道)用于防止海水腐蚀,并在热交换器上采用了镀钛的板换叠片等技术。虽然这些技术在数据中心行业中也许还比较新,但海水散热在其他行业中也有较多应用,因此可以从相关行业学习这些经验和教训。为了保障设计可行,在概念设计阶段Google 做了很多热仿真工作。采用CFD技术,验证了风向和风强等对海水温度的影响,以及不同时间海水的潮汐效应。另外还需要考虑芬兰湾水位高低,海水温度变化和盐度大小以及海藻等对机房散热的影响。Google 还根据该地
33、区过去三十年海水温度的数据,来确定管道从哪里取水和哪里排水,以及进出水口安装水面下面多深的地方等。TT 服务器技术专题之“组策略命令指南”Page 25 of 54 采用海水来冷却还有一些需要考虑的地方,由于不好直接采用化学过滤等,因此海水换热器的设计就非常关键了。Google 在 Hamina的设计中采用了四重的海水过滤系统,分别是粗效过滤、沿途过滤、药剂过滤和高效过滤器环节,并为了长期维护方便现场建设了可更换的CIP(clean in place)过滤环节。此外还有需要注意的地方是大型海水冷却泵的水击(water hammer)作用导致的损坏,该损坏主要来自阀门快速关闭时对管路带来的强烈冲
34、击,产生的原因是关闭阀门后水被抽走导致的管内真空,从而管内外压力差很大。而用于防止海水腐蚀采用的玻璃纤维材料的水管强度不够高,在水击发生时的压力下容易造成管路爆裂,为此 Google 专门设计了个空气输入阀门,来控制压力差变化并缓冲其带来的冲击。总之海水冷却并不适合于所有人,设计中需要专业的工程学知识和技术,需要考虑很多东西,并且前期投入较大,因此对于小规模的数据中心建设并不划算,但应用在大体量的数据中心会带来非常多的益处。“对于某些规模较小的数据中心运 TT 服务器技术专题之“组策略命令指南”Page 26 of 54 营商/用户来说,(新型海水冷却系统)可能不具有经济效益,但它却有社会效益
35、。它可以提供一个可靠的热源-芬兰海湾每年都会结冻,”Kava说道。还有,海水由于常年温度变化小且可预计,是非常稳定可靠的冷源,且可以几乎没有传统空调水系统带来的水消耗问题,并可以得到非常低的PUE值。综上所述,谷歌的三个数据中心采用了完全不一样的方式,但都实现了100%的自然冷却,达到了高效率的制冷方式,并实现了简单可靠的设计。因此自然冷却可以有很多种方式,且没有绝对的优劣。实现方式和当地的各种条件关系非常大,比如地理位置、气候等,因此不要局限于某一种固定的解决方案,而应该考虑长期的 TCO。TT 服务器技术专题之“组策略命令指南”Page 27 of 54 Google 集装箱数据中心原理介
36、绍数据中心模块化最近较为热门,其中较为典型的一种模块化实现方式就是采用集装箱数据中心,国内在这方面的推广也有一段时间了,但实际应用却又不多,那么集装箱是否适合中国,业界又是如何来打造的?针对这些问题笔者从一个google 的集装箱数据中心 专利(其实该专利在2009年已经公开,网络上也有不少相关图片),以及网络上相关Google 的集装箱数据中心的视频,做一些最粗浅的分析以飨读者,并与同行们共勉。一、google 集装箱数据中心原理介绍从 2005 年开始,Google 的数据中心就已经开始采用标准的集装箱设计,当时 Goolge 用 45 个集装箱搭建了一个奇怪的设施,有些就放在龙门吊架的二
37、层上,谁也想不到它是一个数据中心,这种设计在当时非常罕见。Google 的集装箱每个可以容纳 1160 台服务器,具有 250KW 的功率,每平方英尺可以具有超过780W的功率密度。TT 服务器技术专题之“组策略命令指南”Page 28 of 54 图 1 是 google 集装箱数据中心的透视图,从图中我们可以看到每个40 英尺集装箱中布置了两排机柜,两排面对面的机柜中间作为冷通道,由地板下安装的多个空调盘管及风扇提供冷量,整个集装箱对外的接口只有标号为152/155 的空调冷冻水接口、标号 149 对应的供电接口以及标号158 对应的网络和管理接口构成。在集装箱的左侧,打开主入口门164,
38、门口左边是标号为107的综合配线架,右边是标号为 131 的电力配电柜,从上图可以看到弱电网线走在服务器机柜底下,强电配电线缆走在服务器机柜顶部,两侧有两路空调冷冻水管路布置在集装箱的最底部,通过空调盘管 116 和离心风机 119 来散热。考虑运输和吊装等需求,在集装性的底部 143 位置或者顶部 146 等位置还预留了叉车和吊装的接口。图 1 显示了集装箱数据中心100,其可以被用来向诸如数据中心的整体并行计算系统添加计算能力。在一些实施方式中,不同的集装箱数据中心可以提供替代 TT 服务器技术专题之“组策略命令指南”Page 29 of 54 量的处理能力或存储能力(例如,2000个微处
39、理器和 50兆兆字节的存储),即不同的模块可以是基本上可互换的。在一些实施方式中,不同的模块可以提供处理能力对存储能力的不同比率,并且目标应用可以确定适当的比率。例如存储密集型的应用可以要求具有大量的存储设备的模块,而该应用可能不需要大量的处理器;被设计为离线模拟大型网络的“实验室网络”应用可以要求具有大量处理器的模块,而该应用可能不需要大量的存储设备。从图 1,我们还可以看到一个集装箱内有多个空调盘管单元,每个单元大概覆盖三个 IT 机柜左右,当然实际每个空调覆盖的机柜数量会随着IT 设备的类型灵活调整,比如存储类的设备功耗较低,则可以少建设几个盘管或者多摆几个机柜等,这些可以在工厂阶段根据
40、需要灵活配置。在第二部分中,我们将介绍谷歌数据中心制冷。TT 服务器技术专题之“组策略命令指南”Page 30 of 54 Google 集装箱数据中心制冷数据中心模块化最近较为热门,笔者从一个google 的集装箱数据中心专利(其实该专利在 2009 年已经公开,网络上也有不少相关图片),以及网络上相关Google 的集装箱数据中心的视频,第一部分介绍了谷歌数据中心原理。下面看看配电。下图是整个集装箱的截面图,这个图更有助于大家看到其气流组织,由机柜底部送出的冷量在中间的312 冷池内被两侧的服务器吸入,经由服务器的风扇315吹到服务器尾侧的309 热通道内,再经地板下的空调盘管116 制冷
41、后由离心风机119 吹回冷通道内,形成如下ABCD的整个气流循环,气流组织非常短,风机能耗及冷量传递损失都很少,效率很高。TT 服务器技术专题之“组策略命令指南”Page 31 of 54 标准集装箱的宽度只有2.35 米,考虑两排机柜并列,还需要冷通道维护空间及两侧热通道回风需要,这里可以推断出google 的服务器深度实际是很短的,初步估计含机柜不超过700mm。这种短宽深度的设计也非常适合于服务器散热,较为容易实现高温服务器的目标,据google 的介绍,其冷通道送风温度高达27 度甚至更高,因此提升冷通道送风温度的节能效果非常明显。TT 服务器技术专题之“组策略命令指南”Page 32
42、 of 54 下图的空调特写部分更为清晰展示了其原理,其中116 为 A字型空调盘管,122 供水管和 125回水管通过快接软管连到该空调盘管上,降温后的冷空气由导风槽 202 及离心风机 119 甩到架空地板上的冷通道内,集装箱内的热量由空调冷冻水带到集装箱外。每个空调盘管对应三个风扇,冷却风扇速度可变,并可以精确管理,保证风扇在能够冷却机架的前提下运行在最低速度。TT 服务器技术专题之“组策略命令指南”Page 33 of 54 Google 集装箱数据中心的设计着重于“电源在上,水在下”,机架从集装箱的天花板悬挂下来,冷却设备在机架下面,让冷空气通过机架。上图是服务器尾部的电源线连接,下
43、图是服务器前部的网络连接,但实际根据google 公布的集装箱数据中心视频,服务器的供电和网络接口都建设在冷通道一侧,实现完全的前维护或者冷通道维护,因为服务器后面热通道的宽度实在有限,难以进人维护,以及热通道的温度高达40 多度,也不适合运维人员高温操作。据 google 自己公布,其 IDC 的 PUE值从 2008 年第三季度的 1.21 下降到2008年第四季度的 1.16。PUE 为 1 表示数据中心没有能源损耗,而根据2006 年的统计,一般公司数据中心的能效比为 2.0 或更高。Google 的 1.16 已经低于美国能源部 2011 年的 1.2 的目标。Google 集装箱数
44、据中心实现低PUE的几个最佳实践方法大家可以从参考资料的视频地址中找到。第三部分我们将介绍谷歌数据中心供配电。TT 服务器技术专题之“组策略命令指南”Page 34 of 54 Google 集装箱数据中心供配电相比大多数企业都从戴尔、惠普、IBM或 Sun购买服务器系统,google 的服务器系统却是自己设计的。它在每台服务器都配有12V的备用电池(3.2Ah,备电时间很短只有几分钟),而不采用大型的不间断电源(UPS)作为备用电源。通常市电直供比 UPS更有效率,大型 UPS的有效率为 92%至 95%,而市电直供的效率为99.9%。Google 服务器厚 3.5 英寸(2 个机架单位),
45、有两个处理器,两块硬盘,八个内存条,主板由技嘉制造,采用来自英特尔和AMD 的 x86 处理器。Googl e 甚至还在自己的网络设备中采用了这种电池设计。通过这些设计,可以避免采用传统低效率的 UPS方案,达到了 99.9%的供电效率的。下图是 google 服务器 UPS的供电拓扑图,以及掉电保护控制逻辑。市电正常的时候由市电直接给服务器供电,实现99.9%的供电效率,同时让电池充满电;当市电闪断或者停电的时候,则由主板上的12V电池过渡放电一两分钟,保持设备不掉电,直至柴油发电器启动继续提供市电输入。原理较为简单,但实现起来却难度较大。TT 服务器技术专题之“组策略命令指南”Page 3
46、5 of 54 下图是 google 整个数据中心层级的供电架构,可以包括在模块化数据中心中的示例设施层级的配电系统1100 的框图。如图所示,由供给1101 以电压 VI 提供电力。在一些实施案例中,该电力由公用设施公司以大约13 千伏的电压 VI 供应。供给 1101 由电力转换设备 1104 转换为电压 V2。在一些实施方式中,电力转换设备 1104 是变压器,并且电压V2是大约 480 VAC,并提供有 3 相。在一些实施方式中,在电压 V2的电力可以被配送给各种模块化计算环境1106A和 1106B。可以由电路保护设备1109(例如,电路断路器、保险丝、电涌抑制器等)提供对在电压 V
47、2的电力的电流保护。在一些实施方式中,每一个集装箱数据中心1106A或1106B包括分相器 1112,其将三个相中的每一个分离为具有电压V3的单相引线。在一些实施方式中,电压V3是单相 208 VAC。在电压 V3的三个单相引线可以作为各种电路被配送到在集装箱数据中心1106A或 1106B内 的负荷。例如,网络交换设备 1115 可以具有专用电路。一个风扇或多个风扇 1118A和 1118B可以具有专用电路(在一些实施方式中,为可靠起见相邻的风扇可以由不同的电路供给)。灯1121可以具有专用电路。处理板 1124A-1124C的组可以具有专用电路(例如,机架中的一列处理器板,或者机架的另一部
48、分1125A、1125B或 1125C可以具有专用电路)。其它设备1127 也可以具有专用电路(例如,灯光、火焰/烟雾检测设备和灭火系统)。如所示出,在电压V3的每一个电路可以具有过电流设备1130(例如,电路断路器、保险丝、电涌抑制器等)。在一些实施方式中,每一个处理器板 1124A-C包括服务器板载电源1133,其将具有电压 V3的电力转换为适合在对应的处理器板上的组件的一个或多个电压。TT 服务器技术专题之“组策略命令指南”Page 36 of 54 考虑了其它实施方式。例如,在设施层级,可以提供诸如备用或补充发电机的额外的电源。在一些实施方式中也可以在整个设施中使用单相电力,也可以使用
49、不同于上述电压的电压。第四部分介绍集 装箱数据中心建设布局。TT 服务器技术专题之“组策略命令指南”Page 37 of 54 Google 集装箱数据中心建设布局如上所述集装箱数据中心具有多个益处。例如,可以以较大颗粒度的集装箱基本单元来建设,实现大型数据中心的快速安装。数据中心的较多部分可以在工厂预先建设并且到现场快速部署;具体地,集装箱和配套的基础设施可以被并行地建构,而不是传统模式下的顺次开展。数据中心的关键部分可以是可移动的,并且可以容易地从一个地点运送到另一个地点。下图是多个集装箱构成的集装箱数据中心园区的示意图。可以清楚看到整个数据中心园区布局非常清晰,上部是冷水机组(googl
50、e 数据中心多采用高效的水系统来散热)和冷却塔等,左侧是两组中低压配电及柴油发电机组给两排集装箱阵列分别供电,供电路经最短。中间就是集装箱数据中心的“轮船码头”集装箱泊位,如果把每个集装箱当成轮船的话。泊位提供两排集装箱的供电、供水及网络,同时还兼做运营人员的检修维护通道,两侧粉红色区域为物流进出和应急通道,布局非常合理。TT 服务器技术专题之“组策略命令指南”Page 38 of 54 如上所示,这里引入泊位的概念,类似于船舶码头,做好基础的供电、网络和冷冻水补给等,给多个靠岸的集装箱数据中心提供源源不断的能源和信息通道。实际建设的时候集装箱部分可以在工厂标准化按需预配制,与此同时,泊位的搭