工業冷水機組液(ye)體冷卻(que)方案(an)有望(wang)進入更多的企業數據中(zhong)心。在(zai)本文中(zhong),我們就將從(cong)五(wu)個方面的原因入手與(yu)廣大讀者朋友們共同展(zhan)開探討。
當前,那些(xie)在傳統(tong)上曾(ceng)經主要是被(bei)用于大型主機(ji)和學術型超級(ji)計算機(ji)的(de)工業冷(leng)(leng)水機(ji)組液體冷(leng)(leng)卻(que)方(fang)案可能很快就會滲透到更(geng)多的(de)企(qi)業級(ji)數據中心了(le)。現如今,有鑒于新的(de)、要求更(geng)高的(de)企(qi)業工作負載正在持續的(de)推高數據中心服(fu)務器(qi)機(ji)架(jia)的(de)功率密度,使得企(qi)業數據中心的(de)管理(li)運營人(ren)員們迫切(qie)需要尋找比空氣(qi)冷(leng)(leng)卻(que)系統(tong)更(geng)有效(xiao)的(de)替代方(fang)案。
我們已經采訪了(le)一(yi)系列(lie)的(de)數(shu)據(ju)中心操作(zuo)運營(ying)人員和供應(ying)商,詢問(wen)了(le)他們關于(yu)將液體冷(leng)卻(que)方(fang)案推廣到主(zhu)流(liu)應(ying)用的(de)看法。受(shou)訪者中的(de)一(yi)部分(fen)人并(bing)不想(xiang)透露其所(suo)在(zai)(zai)數(shu)據(ju)中心所(suo)采用的(de)具(ju)體的(de)應(ying)用程序,并(bing)聲稱他們將這些工作(zuo)負(fu)載及其冷(leng)卻(que)方(fang)式視為其所(suo)在(zai)(zai)企業的(de)競爭優勢。
一系列的超大規模云服務運營商,包括諸如微軟、谷歌的母公司Alphabet、臉書Facebook和百度,已經組建起了一只專門致力于打造采用工業冷水機組液體冷卻服務(wu)器(qi)機架的開放式規范的群(qun)體,但該群(qun)體目前(qian)并沒有(you)說(shuo)明他們(men)將(jiang)會使用的具體方(fang)案。然而(er),在(zai)這些超大規模(mo)數據中(zhong)心中(zhong),至少(shao)有(you)一類工(gong)作(zuo)負(fu)載明顯需要采用液體冷卻方(fang)案,即:由(you)GPU加速的機器(qi)學習系(xi)統(或者對于谷歌公(gong)(gong)司(si)而(er)言(yan),便是(shi)其最新的TPU張量處(chu)理器(qi),該公(gong)(gong)司(si)曾公(gong)(gong)開表示(shi)其TPU現(xian)在(zai)使用的是(shi)直接(jie)冷卻芯片(pian)的液體冷卻設計(ji))。
盡管當前的企業數據中心運營商們對于工業冷水機組液體冷(leng)卻方案的采用(yong)這一(yi)主題感到(dao)疑慮和擔憂,但目前已經有一(yi)些使用(yong)趨勢(shi)開始出現(xian)了。如果企業在數據(ju)中心(xin)支持以下任何工(gong)作負載,那么(me)數據(ju)中心(xin)在未來也可能采用(yong)液體冷(leng)卻方案:
1、人工智能和加速器
近年來(lai),由摩爾定律所描述的(de)年度CPU性能增長的(de)速率已經呈現(xian)出大幅放緩的(de)趨勢(shi)。部(bu)分的(de)原因是由于加速器(qi)處理器(qi)(主要是GPU),以及FPGA和專用(yong)ASIC正越(yue)來(lai)越(yue)多地進入企業數據(ju)中心。
GPU驅動的(de)機器(qi)學(xue)習可能是(shi)除HPC(高性能計(ji)(ji)算)領域(yu)之(zhi)外最為(wei)常見的(de)硬件加速使用案例(li)。然(ran)而(er),在(zai)由市(shi)場調研機構451 Research最近所進行的(de)一項調查中,大約(yue)有三分(fen)之(zhi)一的(de)IT服務(wu)提供商表(biao)示說,他(ta)(ta)們所在(zai)的(de)企(qi)業計(ji)(ji)劃在(zai)在(zai)線數據(ju)挖掘、分(fen)析、工(gong)程模(mo)擬、視頻、其他(ta)(ta)實時媒(mei)體、欺詐檢測、負載平衡(heng)以及類似(si)延遲敏感的(de)服務(wu)中采用該加速系統。
硬件(jian)加速器(qi)具有(you)比CPU高(gao)得多(duo)的(de)(de)熱設計點(TDP,thermal design points),通常需(xu)要消耗200W或更多(duo)的(de)(de)功率來對(dui)其實(shi)施冷卻;而添加高(gao)性(xing)能服務(wu)器(qi)CPU,那么您企業數據(ju)中心的(de)(de)一(yi)(yi)款單一(yi)(yi)的(de)(de)系(xi)統就(jiu)將需(xu)要超(chao)過1kW的(de)(de)功率來對(dui)其實(shi)施冷卻。
英特(te)爾公司也在積極(ji)的(de)(de)(de)突破(po)其傳統(tong)設計的(de)(de)(de)服務器(qi)處理器(qi)的(de)(de)(de)150W功率的(de)(de)(de)限制。“越(yue)來(lai)越(yue)多的(de)(de)(de)企業客戶想要更強大的(de)(de)(de)芯片產品(pin),我們開始(shi)看到這些(xie)芯片產品(pin)所(suo)消耗的(de)(de)(de)功率瓦特(te)數量正在逐(zhu)漸上升。”來(lai)自Uptime Institute的(de)(de)(de)執行董事安(an)迪勞(lao)倫斯(Andy Lawrence)表(biao)示說。
當前企業(ye)數據(ju)中(zhong)心服務器的(de)機(ji)架密度正在(zai)不斷上(shang)升。大多數數據(ju)中(zhong)心正常運行軌道上(shang)現在(zai)至少有一(yi)些(xie)超過10kW的(de)機(ji)架,而20%的(de)機(ji)架上(shang)甚至還有30kW或更(geng)高(gao)功率(lv)密度的(de)機(ji)架。但這些(xie)工(gong)作(zuo)負載(zai)并(bing)不被視為高(gao)性能計算。“他們(men)只是表示他們(men)的(de)工(gong)作(zuo)負載(zai)有更(geng)高(gao)密度的(de)機(ji)架而已。”勞倫斯表示說。
“如(ru)果將(jiang)GPU與英(ying)特(te)爾處(chu)理器(qi)放在一(yi)起,他(ta)們的功率密(mi)度可(ke)能會達到以前的三倍。”他(ta)說。液(ye)體(ti)冷(leng)卻方案顯(xian)然非常適合這些加速器(qi),特(te)別(bie)是浸入式冷(leng)卻方案,可(ke)以冷(leng)卻GPU和CPU。
2、冷卻高密度存儲
隨著當(dang)前企(qi)業數(shu)據(ju)中心的(de)(de)存(cun)(cun)(cun)儲(chu)密度(du)(du)的(de)(de)持續增加,可(ke)能會使得有效的(de)(de)冷卻(que)(que)存(cun)(cun)(cun)儲(chu)變(bian)得更(geng)加困難。數(shu)據(ju)中心所(suo)安(an)裝(zhuang)的(de)(de)大部分存(cun)(cun)(cun)儲(chu)容量都是由非密封的(de)(de)硬盤驅動器所(suo)組成的(de)(de),不能采用液(ye)體冷卻(que)(que)方案(an)。然而,較新的(de)(de)技術在(zai)這(zhe)方面則為業界的(de)(de)企(qi)業用戶們帶來(lai)了(le)希望。例如,固(gu)態的(de)(de)驅動器可(ke)以使用全浸入式的(de)(de)解決(jue)方案(an)進行冷卻(que)(que)。此(ci)外,在(zai)最(zui)新一代的(de)(de)存(cun)(cun)(cun)儲(chu)硬件中創建支持高密度(du)(du),高速讀/寫頭的(de)(de)氦氣要求密封單元,使其適用于液(ye)體冷卻(que)(que)方案(an)。
正如在451 Research所發布的報告中所指出的那樣,固態硬盤和充滿氦氣的硬盤驅動器的組合意味著無需將空氣冷卻存儲與工業冷水機組液體冷卻處理方式(shi)分開。硬盤驅(qu)(qu)動(dong)器的可(ke)靠性的提升還帶了一(yi)大益(yi)處,即:在冷卻液中(zhong)浸(jin)入驅(qu)(qu)動(dong)器可(ke)以(yi)有(you)助于減少(shao)熱量和濕度(du)對組(zu)件的影(ying)響(xiang)。
3、網絡邊緣計算
減少(shao)當前和未來應(ying)用程序延遲的(de)需(xu)求進一(yi)步的(de)推動了對網絡邊緣新一(yi)代數據(ju)中(zhong)心的(de)需(xu)求。這些可以是在無線塔、工(gong)廠操作車間或零售(shou)店中(zhong)所部署的(de)高(gao)密(mi)度(du)(du)的(de)遠程設施(shi)。而且這些設施(shi)可能會越來越多地(di)托管(guan)高(gao)密(mi)度(du)(du)的(de)計(ji)算硬件,例如用于機器學習的(de)GPU打(da)包集(ji)群。
雖然并非所(suo)有(you)的(de)邊(bian)緣數據(ju)中(zhong)(zhong)心都是采用(yong)的(de)液體(ti)(ti)冷卻(que)(que)的(de)方(fang)案,但許多(duo)邊(bian)緣數據(ju)中(zhong)(zhong)心將(jiang)被設計用(yong)于(yu)支持(chi)在無法使(shi)用(yong)傳(chuan)統(tong)冷卻(que)(que)方(fang)案的(de)密閉空間中(zhong)(zhong)的(de)繁重(zhong)工作負載,或者在沒(mei)有(you)使(shi)用(yong)傳(chuan)統(tong)的(de)先決條(tiao)件的(de)新部署(shu)環境中(zhong)(zhong)實施冷卻(que)(que)。由(you)于(yu)降低了能(neng)耗,液體(ti)(ti)冷卻(que)(que)方(fang)案使(shi)得在沒(mei)有(you)大容量供電的(de)地(di)方(fang)更容易部署(shu)邊(bian)緣站(zhan)點。
而根據勞(lao)倫斯(si)的(de)(de)預計介紹,多達(da)20%的(de)(de)邊緣(yuan)數(shu)據中(zhong)心(xin)可以使用液體冷卻方案(an)。他設想遠程的(de)(de)微(wei)模塊化高密度數(shu)據中(zhong)心(xin)站點支持每臺機架(jia)40kW。
4、高頻交易和區塊鏈
許多現代金融服務行業企業的工(gong)(gong)作(zuo)負載(zai)都是計算(suan)密集型的,需要高(gao)性(xing)能的CPU以及GPU。這(zhe)些工(gong)(gong)作(zuo)負載(zai)包括(kuo)高(gao)頻交易系(xi)統和(he)(he)基于區塊鏈(lian)的應用程序,如(ru)智能合約(yue)和(he)(he)加密貨幣。
例如,綠色革命工業冷水機組冷(leng)卻(que)技術公司(GRC,Green Revolution Cooling)的(de)某家(jia)企(qi)業客(ke)戶(hu)(hu)便是一家(jia)高(gao)頻交易(yi)公司,該企(qi)業客(ke)戶(hu)(hu)公司正(zheng)在測試其浸(jin)入式冷(leng)卻(que)解(jie)決方案(an)。當綠色革命冷(leng)卻(que)技術公司推出了用于加密貨幣采(cai)礦的(de)浸(jin)入式冷(leng)卻(que)產品,同時比特幣的(de)價格也從2017年底開始(shi)飆升(sheng)時,該公司也經歷了有史以來(lai)最大幅度的(de)銷售(shou)飆升(sheng)。
GRC的(de)(de)首席執行官Peter Poulin告訴記者說,GRC公司的(de)(de)另一家位于(yu)特立尼達(da)和多巴(ba)哥的(de)(de)企業(ye)客戶正在以每臺機架100kW的(de)(de)功率(lv)運行加密貨幣服務,并將一個溫(wen)水(shui)(shui)冷卻(que)(que)回(hui)路連接到(dao)蒸發塔(ta)。由于(yu)溫(wen)水(shui)(shui)冷卻(que)(que)比冷水(shui)(shui)冷卻(que)(que)方案(an)更加節能(neng),因此該(gai)冷卻(que)(que)方案(an)可以在沒有機械冷卻(que)(que)器(qi)的(de)(de)熱帶環境條(tiao)件下正常運行。
5、傳統冷卻方案的成本費用昂貴
當基于空氣的冷卻系統無法處理高密度的冷卻需求時,工業冷水機組液體冷卻方(fang)案便開始(shi)凸(tu)顯出其意義了。
例(li)如,地球科(ke)學公司CGG使(shi)用(yong)了GRC的(de)浸入式液體冷卻系統(tong),以便為其(qi)位于(yu)休斯(si)頓(dun)的(de)數(shu)據(ju)中心(xin)提供冷卻降溫,CGG在該數(shu)據(ju)中心(xin)主(zhu)要(yao)進行地震相關(guan)數(shu)據(ju)的(de)處(chu)理分(fen)析工作,他(ta)們在商用(yong)服務(wu)器上使(shi)用(yong)的(de)是(shi)功(gong)能強大(da)的(de)GPU,每臺機架(jia)消(xiao)耗高達23kW的(de)功(gong)率。這種功(gong)率密(mi)度(du)是(shi)相對(dui)較高的(de),但(dan)這種密(mi)度(du)通(tong)常采用(yong)的(de)是(shi)空(kong)氣冷卻方(fang)(fang)案(an)。CGG的(de)高級系統(tong)部門經理Ted Barragy表示(shi)說(shuo):“我們將(jiang)沉(chen)重的(de)計算(suan)服務(wu)器放入沉(chen)浸式水箱進行冷卻。但(dan)事(shi)實上,與其(qi)說(shuo)是(shi)此舉是(shi)為了滿足應用(yong)程序的(de)工作負載(zai),還不如說(shuo)沉(chen)浸液體冷卻方(fang)(fang)案(an)更(geng)符合成本(ben)經濟。
在(zai)其升級(ji)過(guo)程中,浸入式的(de)液體冷(leng)(leng)卻(que)(que)方案(an)取代(dai)了CGG公司舊數據中心過(guo)去所采用的(de)傳(chuan)統冷(leng)(leng)卻(que)(que)設備。根據Barragy的(de)介紹(shao),由于(yu)進(jin)行(xing)了升級(ji),該團隊恢復了幾兆瓦(wa)的(de)電力容(rong)量。“即使在(zai)添加(jia)了服務器和(he)沉浸式水(shui)箱幾年(nian)之后,我們(men)仍(reng)然擁有半兆瓦(wa)的(de)電力資源尚未使用。”他(ta)說(shuo)。“這是一個老舊的(de)傳(chuan)統數據中心,其大約有一半的(de)功率消耗都用于(yu)低效的(de)空氣(qi)冷(leng)(leng)卻(que)(que)系統。”
Barragy還表示,浸入式冷卻數據(ju)中(zhong)心的(de)(de)(de)PUE值大約為(wei)1.05。這比該公司位于休斯(si)頓的(de)(de)(de)另一處新建的(de)(de)(de)、但卻采用的(de)(de)(de)是空氣冷卻方(fang)案的(de)(de)(de)數據(ju)中(zhong)心的(de)(de)(de)冷卻效率更高,后者的(de)(de)(de)PUE值為(wei)1.35。
“很(hen)多人(ren)認為(wei)這種(zhong)液(ye)體冷卻僅僅只是適(shi)合于(yu)每臺機架的(de)計算功率密度(du)(du)真正達到60kW至100kW的(de)高密度(du)(du)的(de)冷卻解決方案,但對于(yu)我(wo)們的(de)主流企業客戶來說(shuo),該方案還有其他方面的(de)顯(xian)著優勢,”Poulin說(shuo)。
來自Uptime Institute的首席技術(shu)官克(ke)里斯(si)布朗(Chris Brown)表示(shi)說(shuo),他們目前已經(jing)看到業界對于液(ye)體冷卻(que)方案(an)的興趣的普遍(bian)增(zeng)加。而這正是由當前企業數據中心迫切要(yao)求實現(xian)更高(gao)的能效和更低的運營成本所推動的。
“工業冷水機組液體冷卻方案這方面的重點不再(zai)是(shi)圍繞(rao)著超高密度(du)(du),而是(shi)一般的企業(ye)級數據(ju)中心(xin)的運營(ying)管(guan)理(li)人員們可以用于(yu)冷卻任何IT資產的方案。”他說。“該方案目(mu)前正(zheng)在進入更常(chang)見的密度(du)(du)解決(jue)方案和更多(duo)普通的數據(ju)中心(xin)。” |