Google使用机器学习助力数据中心节能
原文:?Machine learning finds new ways for our data centers to save energy?
譯者:?KK4SBB?
歡迎技術(shù)投稿、約稿、給文章糾錯(cuò),請(qǐng)發(fā)送郵件至heyc@csdn.net
虛擬的網(wǎng)絡(luò)世界都是以現(xiàn)實(shí)世界為基礎(chǔ)的。當(dāng)我們?yōu)g覽網(wǎng)站、發(fā)送郵件、上傳視頻灌水論壇時(shí),這些數(shù)據(jù)都將流經(jīng)占地面積超過足球場(chǎng)的數(shù)據(jù)中心。數(shù)據(jù)中心內(nèi)成千上萬(wàn)臺(tái)服務(wù)器每秒鐘消耗的能源都非常驚人。全世界所有的數(shù)據(jù)中心消耗的能源總和約占全世界用電量的2%,如果不加以控制,能源的消耗也將會(huì)如同互聯(lián)網(wǎng)使用一樣大爆發(fā)。所以,給數(shù)據(jù)中心能源消耗瘦身這一任務(wù)迫在眉睫。
好在近些年來(lái)出現(xiàn)了各種提升能源效率的方法,盡管數(shù)據(jù)中心的規(guī)模不斷擴(kuò)大,但其總電能消耗已經(jīng)趨于平和。數(shù)據(jù)中心的能源消耗標(biāo)準(zhǔn)衡量單位PUE(電力使用效率)受很多因素影響。一個(gè)典型的數(shù)據(jù)中心需要配備多種設(shè)備,比如水機(jī)組、冷卻塔、水泵、換熱器和控制系統(tǒng),每個(gè)設(shè)備都有各自的設(shè)置,并且它們相互影響、錯(cuò)綜復(fù)雜。外加空氣溫度、風(fēng)扇轉(zhuǎn)速等因素,整個(gè)系統(tǒng)的復(fù)雜度成為天文數(shù)字。我們簡(jiǎn)單假設(shè)這個(gè)機(jī)房只有10套設(shè)備,每個(gè)設(shè)備有10組參數(shù),那就有10^10組配置參數(shù),即達(dá)到了百億級(jí)別。但真實(shí)環(huán)境下的可能配置項(xiàng)遠(yuǎn)不止這些。
谷歌在規(guī)劃數(shù)據(jù)中心的時(shí)候,都將數(shù)據(jù)中心的能源效率一并考慮。很久以前,谷歌就決定從頭開始自行設(shè)計(jì)和建設(shè)數(shù)據(jù)中心,以便于應(yīng)用最先進(jìn)的冷卻技術(shù)和運(yùn)行策略。谷歌的數(shù)據(jù)中心盡可能采用先進(jìn)的蒸發(fā)式冷卻和外部空氣冷卻來(lái)替代傳統(tǒng)的機(jī)械式冷水機(jī)。他們安裝了智能溫控和光控系統(tǒng),并重新設(shè)計(jì)電力布線。他們的定制化高性能服務(wù)器砍去了視頻卡等不必要組件,提高服務(wù)器的使用率,諸多的舉措都為了減少能源損失。
截至2014年春,谷歌數(shù)據(jù)中心的能耗只有業(yè)界平均水平的50%。那么,接下去的問題就是如何進(jìn)一步瘦身。一位名叫Jim Gao的谷歌工程師,受到網(wǎng)上機(jī)器學(xué)習(xí)課程的啟發(fā),決心找出問題的答案。
機(jī)器學(xué)習(xí)的核心在于教會(huì)計(jì)算機(jī)如何從大量數(shù)據(jù)中自學(xué)知識(shí),而不需要工程師開發(fā)代碼去告訴計(jì)算機(jī)這些知識(shí)。谷歌早已用機(jī)器學(xué)習(xí)來(lái)改善谷歌翻譯、圖像識(shí)別等產(chǎn)品。
Gao希望用“探索數(shù)據(jù)內(nèi)部奧秘”的方法來(lái)幫助他更好地理解數(shù)據(jù)中心的海量信息。在日以繼夜地忙碌了6個(gè)月之后,他終于為數(shù)據(jù)中心內(nèi)的所有組件搭建了一套概念證明模型。他說“這只是個(gè)非常基礎(chǔ)的原型,用以證明我的想法是可行的,值得去繼續(xù)探索”。
最初的結(jié)果并不十分理想“第一次預(yù)測(cè)完全失敗”,Gao自己承認(rèn)“model在預(yù)測(cè)PUE和我們的行為序列時(shí)表現(xiàn)的不好”。模型認(rèn)為使得節(jié)能最大化的辦法是關(guān)閉整套系統(tǒng),然而這個(gè)建議對(duì)工程師們并沒有什么用。于是,Gao重新仿真運(yùn)行,不斷調(diào)整模型使得其預(yù)測(cè)結(jié)果最接近有效的配置,這也意味著達(dá)到了節(jié)能最大化的目標(biāo)。當(dāng)他覺得自己的模型已經(jīng)足夠準(zhǔn)確之后,Gao發(fā)表了一份白皮書,然后與駐場(chǎng)運(yùn)維團(tuán)隊(duì)一起實(shí)現(xiàn)此系統(tǒng)。
與此同時(shí),谷歌的人工智能研究團(tuán)隊(duì)DeepMind發(fā)表的一篇關(guān)于DQN的論文引起了不小的轟動(dòng),這是一個(gè)會(huì)玩Atari游戲的機(jī)器人,所有Atari游戲。訓(xùn)練會(huì)玩一種游戲的模型是一回事,讓程序自學(xué)掌握所有的游戲的難度則有天壤之別。這是機(jī)器學(xué)習(xí)社區(qū)的一個(gè)重磅消息,當(dāng)Gao聽聞此消息之后,他立即給DeepMind的領(lǐng)導(dǎo)Mustafa Suleyman寫了封郵件,主題為“機(jī)器學(xué)習(xí)+數(shù)據(jù)中心=搞一個(gè)大新聞?”?
Suleyman支持Gao的想法,DeepMind開始于Gao的數(shù)據(jù)中心智能化(DCIQ)團(tuán)隊(duì)合作研發(fā)更穩(wěn)健和通用的模型。
18個(gè)月之后,他們合作研發(fā)的模型已經(jīng)用在了多個(gè)系統(tǒng)中,并且使得冷卻系統(tǒng)減少了40%的能耗,總體能耗下降15%。DCIQ團(tuán)隊(duì)認(rèn)為這只是一些微不足道的成績(jī),機(jī)器學(xué)習(xí)還能在這個(gè)領(lǐng)域發(fā)揮出更大的作用。谷歌的環(huán)保團(tuán)隊(duì)希望模型能降低系統(tǒng)的碳排放量,硬件運(yùn)維希望降低設(shè)備的故障率,平臺(tái)團(tuán)隊(duì)更關(guān)心服務(wù)器的能源消耗。機(jī)器學(xué)習(xí)能幫助大家實(shí)現(xiàn)各自的愿望。
Gao說道“我們堅(jiān)信我們正在做的工作可以造福所有人”。即將發(fā)布的第二本白皮書將會(huì)介紹更多關(guān)于DCIQ的細(xì)節(jié),也許對(duì)很多其他企業(yè)也會(huì)有幫助,比如發(fā)電廠、工廠等等。
總結(jié)
以上是生活随笔為你收集整理的Google使用机器学习助力数据中心节能的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习框架Caffe源码解析
- 下一篇: 轻量级大规模机器学习算法库Fregata