人人皆可大数据!SACC教你玩转阿里ODPS
人人皆可大數(shù)據(jù)!SACC教你玩轉(zhuǎn)阿里ODPS
【IT168 專稿】為什么我們使用搜索引擎時(shí),不同的用戶搜索同樣的關(guān)鍵詞看到的廣告卻不同?為什么我們到電子商務(wù)網(wǎng)站購物時(shí),每次瀏覽同樣的商品時(shí)都可以得到不同的商品推薦?你有沒有想過,你所擁有的數(shù)據(jù)蘊(yùn)含著怎樣的價(jià)值?這就是數(shù)據(jù)分析的意義所在。
今年7月8日,阿里云計(jì)算正式發(fā)布了核武級大數(shù)據(jù)產(chǎn)品——ODPS。ODPS的出現(xiàn)讓玩轉(zhuǎn)大數(shù)據(jù)不再是大企業(yè)的專屬技能。通過ODPS在線服務(wù),小公司與小團(tuán)隊(duì)可以對擁有的海量數(shù)據(jù)進(jìn)行快速分析挖掘。ODPS可在6小時(shí)內(nèi)處理100PB數(shù)據(jù),相當(dāng)于1億部高清電影。此前,全球掌握這種能力的公司屈指可數(shù),如Google、亞馬遜等。
五年間,阿里云的工程師們寫下250萬行代碼,不斷打磨ODPS。正是這支幕后開發(fā)團(tuán)隊(duì)促就了這個平民化大數(shù)據(jù)分析平臺的誕生。近日,IT168記者有幸采訪到了阿里巴巴數(shù)據(jù)平臺事業(yè)部高級專家余波先生,請他講述了ODPS背后的故事。同時(shí)作為技術(shù)的實(shí)踐者,他也分享了自己的職場經(jīng)驗(yàn),并為架構(gòu)師的發(fā)展提供了寶貴的建議。
▲阿里巴巴數(shù)據(jù)平臺事業(yè)部高級專家余波
嘉賓介紹:
2006年畢業(yè)于中科院計(jì)算所,計(jì)算機(jī)軟件與理論專業(yè)博士,主要從事數(shù)據(jù)庫管理系統(tǒng)方面與分布式系統(tǒng)的研究。2009年加入阿里巴巴,先后主持開發(fā)了ODPS服務(wù)框架、5k跨集群復(fù)制和多控制集群等多個項(xiàng)目,是大規(guī)模離線數(shù)據(jù)平臺的主要設(shè)計(jì)者之一,目前負(fù)責(zé)大規(guī)模機(jī)器學(xué)習(xí)平臺的建設(shè),主要興趣在大規(guī)模分布式系統(tǒng)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域。
全心投入 敢于放手
在余波看來,他其實(shí)并不是一位嚴(yán)格意義上的架構(gòu)師。談到他的職業(yè)發(fā)展之路,余波表示,離開校園之后,對發(fā)paper這種事多少有些厭倦,就投身入coding這種有前途的事業(yè)當(dāng)中來。最開始由于項(xiàng)目的原因,接觸了一些開源項(xiàng)目,再加上自己平時(shí)有些愛琢磨,所以寫代碼逐漸有一些潔癖,非常討厭寫多余的東西。再后來,慢慢項(xiàng)目大了,會帶幾個同學(xué)一起做,到最后形成一個穩(wěn)定的團(tuán)隊(duì)。
在這個過程中,他會逼迫自己放手去讓別人做具體的編程,而自己要在大的架構(gòu)上面把握好方向、在關(guān)鍵細(xì)節(jié)上控制好質(zhì)量,所以相對是一個比較自然的過程。余波坦言,他做事情一般不多去想結(jié)果,只要想做了,就會全力投入去做,對過程反而會更關(guān)注一些,不過一般結(jié)果都還好,這反過來又加強(qiáng)了他一貫盲目自信的特性,敢于去接受各種變化和挑戰(zhàn)。
人人皆可大數(shù)據(jù) ODPS降低兩大門檻
ODPS號稱是阿里云5年的巔峰之作,阿里金融、淘寶指數(shù)、數(shù)據(jù)魔方等關(guān)鍵數(shù)據(jù)業(yè)務(wù)的離線處理作業(yè)都運(yùn)行在ODPS之上。而如今,ODPS已正式對外商用,這種大數(shù)據(jù)處理能力的開放究竟會對我們?nèi)粘I町a(chǎn)生哪些影響? 對此,余波笑稱:“大數(shù)據(jù)這個概念現(xiàn)在很火,有個笑話說現(xiàn)在大數(shù)據(jù)分析專家的飽和量已經(jīng)超過北京出租車司機(jī)的數(shù)量,大數(shù)據(jù)怎么影響人們的日常生活,我相信很多人都能比我講到好。”
他認(rèn)為,ODPS正式對外商用的最大意義,是極大的降低了人們使用大數(shù)據(jù)的門檻。而這種門檻包括兩個方面:一個是技術(shù)方面,之所以叫大數(shù)據(jù),不光是數(shù)據(jù)量大,大小從幾T到幾P,而且通常數(shù)據(jù)內(nèi)容和形式都非常復(fù)雜,維度多、數(shù)據(jù)質(zhì)量也參差不齊,處理這樣的數(shù)據(jù)除了需要強(qiáng)大的計(jì)算能力,還需要豐富、靈活并且簡單易用的方法。
ODPS支持SQL、MapReduce、圖計(jì)算、機(jī)器學(xué)習(xí)等多種編程模型來幫助用戶,對于數(shù)據(jù)倉庫的用戶,還可以像以前一樣簡單寫寫SQL就能解決問題,對于追求更高級功能的一些用戶,可以自己寫一個Java包,用mapreduce來對數(shù)據(jù)做加工,對于搞機(jī)器學(xué)習(xí)的用戶,可以直接用我們提供的常見算法包,運(yùn)行各種算法來訓(xùn)練模型和做在線預(yù)測。借助ODPS,用戶可以只專注于自己的業(yè)務(wù)邏輯,不用擔(dān)心數(shù)據(jù)量大的問題,高效的得到計(jì)算結(jié)果,也不用去關(guān)心底層復(fù)雜的分布式系統(tǒng)常見的問題,如網(wǎng)絡(luò)、當(dāng)機(jī)等。
另一方面則是運(yùn)維,這個是云計(jì)算帶來的好處,你不需要一個運(yùn)維團(tuán)隊(duì)來維護(hù)集群以及和硬件打交道,ODPS以Restful API的方式提供服務(wù),你只要能連上網(wǎng)、在阿里云上建立賬號,就能享受到大數(shù)據(jù)處理的服務(wù)。
不忘初心 方得始終
在余波眼中,數(shù)據(jù)分析工程師的未來將會更有前(錢)景。為什么會有大數(shù)據(jù),大數(shù)據(jù)是怎么產(chǎn)生的呢,是人們產(chǎn)生并收集了更多的數(shù)據(jù),移動和無線讓人們聯(lián)系更緊密、交互更多,產(chǎn)生更多的信息。有了更多的信息,在宏觀方面,有更多的樣本,使得趨勢預(yù)測更準(zhǔn)確,在微觀方面,使得個人的信息收集得更完整,各種個性化更容易做到。ODPS是一個平臺,它只是讓數(shù)據(jù)處理變得更簡單,但怎么使用這么高效的工具則是數(shù)據(jù)分析人員的事情。前面講過,大數(shù)據(jù)意味著數(shù)據(jù)更復(fù)雜,要想得到更有價(jià)值的東西,則需要有更多的智慧,所以數(shù)據(jù)分析工作的難度和價(jià)值比以前更高。
“最重要的是要有透過問題表像抓住本質(zhì)的特性,要把關(guān)注點(diǎn)放在最核心的問題上,要知道哪些事情不做,不要過度設(shè)計(jì),一個成功的系統(tǒng),不是因?yàn)閾碛懈嗟膄eature,而是因?yàn)楦鼘?shí)用,開發(fā)人員要能hold住。”在余波看來,一名優(yōu)秀的架構(gòu)師應(yīng)當(dāng)具備以上這些素質(zhì)。他表示,工作中“度”的掌握至關(guān)重要。他見過一些失敗的案例,做架構(gòu)的人想得太多,結(jié)果系統(tǒng)龐大而不實(shí)用,也駕馭不了,最后只得重頭再來。
“人的一生中會面臨很多選擇,大的方面,如角色、方向的改變,小的方面,如一個技術(shù)方案的選型。”對于年輕IT人,余波老師強(qiáng)調(diào)道——“不忘初心,方得始終”,選擇的準(zhǔn)則是什么,是你的初心,做這個選擇還是不是你最開始出發(fā)的那個方向。碰到了困難、問題,是堅(jiān)持還是放棄,要想想你的初心是否發(fā)生了變化。另外,作為一個技術(shù)人員,擁有一個開放的心態(tài)還是非常重要的,要善于學(xué)習(xí)并接納新的技術(shù)、不同的觀點(diǎn)。”
作為本屆中國系統(tǒng)架構(gòu)師大會的講師之一,余波老師屆時(shí)將會以“ODPS - 開放數(shù)據(jù)處理服務(wù)介紹”為主題,與大家分享ODPS在系統(tǒng)架構(gòu)方面的考慮和心得。
第六屆中國系統(tǒng)架構(gòu)師大會將邀請眾多業(yè)界知名的技術(shù)大牛,堅(jiān)持一線專家實(shí)踐案例分享,誠邀十多個不同行業(yè)企業(yè)交流互動,致力于打造千位工程師的技術(shù)盛宴,帶你領(lǐng)略各行各業(yè)的IT架構(gòu)之美。歡迎大家踴躍報(bào)名參會,大會期間將有機(jī)會與大師面對面的交流。
總結(jié)
以上是生活随笔為你收集整理的人人皆可大数据!SACC教你玩转阿里ODPS的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云发布大数据产品ODPS 6小时处理
- 下一篇: 30年来我只坚持三件事