追根溯源 - 数据中台概念的起源
彭鋒 宋文欣 孫浩峰
《云原生數(shù)據(jù)中臺(tái)》
讀完需要
7
分鐘速讀僅需 3 分鐘
1
? ?
數(shù)據(jù)中臺(tái)概念的起源
盡管大數(shù)據(jù)產(chǎn)生于硅谷,數(shù)據(jù)中臺(tái)與大數(shù)據(jù)關(guān)系密切,但硅谷卻沒有數(shù)據(jù)中臺(tái)這個(gè)名詞,因此,我們首先要來看看“數(shù)據(jù)中臺(tái)”的概念是如何在其倡議者阿里巴巴內(nèi)部產(chǎn)生的。下面的故事想必很多人都聽說過。
2015 年年中,馬云帶領(lǐng)阿里巴巴集團(tuán)高管拜訪了一家芬蘭的小型游戲公司 Supercell。讓馬云及其高管團(tuán)隊(duì)感到驚訝的是,這家僅有不到 200 名員工的小型游戲公司竟創(chuàng)造了高達(dá) 15 億美元的年稅前利潤!該公司典型的開發(fā)模式是以小團(tuán)隊(duì)為單位的單獨(dú)“作戰(zhàn)”,每個(gè)團(tuán)隊(duì)不超過 7 名員工。每個(gè)團(tuán)隊(duì)都可以自己決定開發(fā)什么樣的游戲產(chǎn)品,然后以最快的速度推出公測(cè)版,如果不受歡迎,就立刻放棄,尋找新的方向。這種開發(fā)模式使 Supercell 能非常快速和敏捷地找到玩家喜歡的方向,從而更容易開發(fā)出能夠迎合玩家需求的游戲產(chǎn)品。
而 Supercell 之所以能夠支持多個(gè)團(tuán)隊(duì)快速、敏捷地推出高質(zhì)量的游戲作品,其強(qiáng)大的中臺(tái)能力功不可沒。因此,在拜訪 Supercell 的旅程結(jié)束之后,馬云決定對(duì)阿里巴巴的組織和系統(tǒng)架構(gòu)進(jìn)行整體調(diào)整,建立阿里產(chǎn)品技術(shù)和數(shù)據(jù)能力的強(qiáng)大中臺(tái),構(gòu)建“大中臺(tái),小前臺(tái)”的組織和業(yè)務(wù)體制。
當(dāng)然,Supercell 的研發(fā)模式并不是什么革命性的創(chuàng)新,絕大部分硅谷公司也有類似的模式:本來就不大的公司被分成若干個(gè)小組。這樣做的好處是各小組可以快速?zèng)Q策、研發(fā)并將產(chǎn)品推向市場(chǎng),而不需要重復(fù)開發(fā)游戲引擎、數(shù)據(jù)分析、服務(wù)器等后臺(tái)基礎(chǔ)設(shè)施和服務(wù)。這里,“游戲引擎”可以看作業(yè)務(wù)中臺(tái),“數(shù)據(jù)分析”可以看作數(shù)據(jù)中臺(tái),“服務(wù)器等后臺(tái)基礎(chǔ)設(shè)施”可以看作 PaaS/IaaS 平臺(tái),也就是有些文章中所說的技術(shù)中臺(tái)。
實(shí)際上,雖然硅谷并沒有“數(shù)據(jù)中臺(tái)”這一叫法,但硅谷的公司早已自然形成了中臺(tái)的意識(shí)。從早期的中間件(Middleware)、面向服務(wù)的架構(gòu)(SOA)到后來的 IaaS/PaaS/DaaS 平臺(tái)、微服務(wù)(Microservice),都有中臺(tái)思想的影子,都來源于避免重復(fù)造輪子、快速迭代、數(shù)據(jù)驅(qū)動(dòng)、業(yè)務(wù)驅(qū)動(dòng)這些硅谷工程師文化的核心理念。
國內(nèi)類似的概念“技術(shù)中臺(tái)”就源于中間件、PaaS 平臺(tái)。但是這種中間件、平臺(tái)、中臺(tái)的功能一般并非由一個(gè)頂層設(shè)計(jì)得出,而是一步步建立起來的。
在硅谷的企業(yè)中有一個(gè)非常重要的理念就是不要做 “過早優(yōu)化”(Premature Optimization),也就是說,不要在不需要的時(shí)候進(jìn)行優(yōu)化。一定要先完成功能再優(yōu)化,因此不需要中臺(tái)的時(shí)候沒有必要刻意建一個(gè)大而全的中臺(tái)。當(dāng)然,在建設(shè)數(shù)據(jù)中臺(tái)的不同階段可以使用不同的技術(shù),只要保證中臺(tái)建設(shè)能夠平滑過渡即可。
下面就來簡(jiǎn)單介紹筆者曾在硅谷負(fù)責(zé)建設(shè)的兩個(gè)典型大數(shù)據(jù)項(xiàng)目,看看它們和數(shù)據(jù)中臺(tái)的關(guān)系。
1.1
? ?
藝電的“數(shù)據(jù)中臺(tái)”改造
EA(藝電)是一家總部位于硅谷的知名跨國游戲公司,創(chuàng)造和發(fā)行了眾多深受游戲迷喜愛的游戲,例如《FIFA 足球》《Madden 橄欖球》《NHL 冰球》和《NBA 籃球》等體育游戲,令軍迷們狂熱的《戰(zhàn)地》及《星球大戰(zhàn)》系列游戲,以及經(jīng)久不衰的《模擬城市》《模擬人生》《植物大戰(zhàn)僵尸》等游戲。
這些游戲都是由 EA 位于全球各地的游戲工作室開發(fā)的,但是游戲里所涉及的數(shù)據(jù)分析工具卻是由位于硅谷總部的大數(shù)據(jù)團(tuán)隊(duì)提供的。在有統(tǒng)一的大數(shù)據(jù)平臺(tái)之前,EA 的每個(gè)工作室都需要開發(fā)自己的大數(shù)據(jù)平臺(tái),編寫自己的大數(shù)據(jù)分析程序。各個(gè)工作室的數(shù)據(jù)能力參差不齊,數(shù)據(jù)質(zhì)量得不到保證,有的產(chǎn)品甚至完全沒有數(shù)據(jù)分析。各個(gè)工作室之間無法共享數(shù)據(jù)和用戶資源,總部在匯總?cè)瘓F(tuán)的營業(yè)數(shù)據(jù)時(shí)也費(fèi)時(shí)費(fèi)力。這可以說是一個(gè)非常典型的數(shù)據(jù)孤島的情況。
2011 年,EA 開始逐步建立全局大數(shù)據(jù)平臺(tái)(類似于具有數(shù)據(jù)中臺(tái)功能的平臺(tái)),將各個(gè)工作室的數(shù)據(jù)逐漸匯聚到這個(gè)全局大數(shù)據(jù)平臺(tái)上,并為各個(gè)工作室提供統(tǒng)一的數(shù)據(jù)分析和數(shù)據(jù)服務(wù)工具。各個(gè)工作室不再需要自己維護(hù)大數(shù)據(jù)平臺(tái),也無須自己雇用大數(shù)據(jù)平臺(tái)開發(fā)人員,它們既可以使用集團(tuán)的數(shù)據(jù)分析系統(tǒng)得到自己需要的業(yè)務(wù)報(bào)表,又可以使用系統(tǒng)提供的反欺詐、產(chǎn)品推薦等服務(wù),專注于業(yè)務(wù)使它們能夠快速推出新產(chǎn)品。同時(shí),由于各個(gè)游戲的數(shù)據(jù)得以打通,用戶數(shù)據(jù)得到統(tǒng)一,EA 可以構(gòu)建更全面的用戶畫像,幫助工作室更精準(zhǔn)地為用戶提供個(gè)性化服務(wù),提升用戶體驗(yàn)。而且,集團(tuán)總部能夠快速且自動(dòng)地獲得全局的運(yùn)營信息,而無須等到各個(gè)業(yè)務(wù)部門提交月度報(bào)表之后再手工合并和審核。
通過大數(shù)據(jù)平臺(tái)的建設(shè),在 2012 年和 2013 年被評(píng)為最差勁體驗(yàn)游戲公司、營收逐年下降的 EA,一舉華麗轉(zhuǎn)身,2014 年被評(píng)為最佳體驗(yàn)游戲公司之一,2015 年更是創(chuàng)下 43 億美元的營收歷史新高。
本書作者之一宋文欣作為主要技術(shù)和團(tuán)隊(duì)負(fù)責(zé)人帶領(lǐng)了 EA 大數(shù)據(jù)平臺(tái)團(tuán)隊(duì)的組建以及該平臺(tái)的設(shè)計(jì)和建設(shè)。第 16 章將詳細(xì)描述其類似于 Supercell 的平臺(tái)的建設(shè)歷程。
1.2
? ?
Twitter 的數(shù)據(jù)驅(qū)動(dòng)
Twitter 是硅谷社交三駕馬車之一,其陌生人/公開社交與 Facebook 的熟人/私有社交、LinkedIn 的職場(chǎng)社交都對(duì)互聯(lián)網(wǎng)產(chǎn)生了極大影響。這三駕馬車出現(xiàn)于 2006~2008 年,在時(shí)間上與此相耦合的一個(gè)現(xiàn)象是大數(shù)據(jù)的發(fā)展。Facebook 成立于 2004 年,Twitter 成立于 2006 年,LinkedIn 成立于 2002 年(但發(fā)展期是 2006~2010 年),而作為大數(shù)據(jù)的啟動(dòng)項(xiàng)目,Hadoop 的首發(fā)時(shí)間是 2006 年。
熟悉大數(shù)據(jù)早期發(fā)展歷程的業(yè)內(nèi)人士都知道,雖然 Hadoop 起源于 Google,由 Yahoo!開源,但是 Facebook、Twitter 和 LinkedIn 卻是硅谷早期推動(dòng)大數(shù)據(jù)發(fā)展的核心力量,Hive、Pig、HBase、Mesos、Kafka、Spark、Storm、Thrift、Presto、Parquet 以及其他很多現(xiàn)在廣泛使用的大數(shù)據(jù)組件,都是由這三家公司開源或提供最早的企業(yè)級(jí)應(yīng)用和支持的。究其原因,除了這幾家公司的工程師文化和對(duì)開源的推崇之外,更重要的是實(shí)際業(yè)務(wù)的數(shù)據(jù)驅(qū)動(dòng)需求,因?yàn)樗鼈兌夹枰ㄟ^分析海量的數(shù)據(jù)來推動(dòng)產(chǎn)品研發(fā)、用戶拓展和核心營收的增長。
以 Twitter 為例,整個(gè)公司的管理都基于數(shù)據(jù)驅(qū)動(dòng)的理念,而其底層支撐是一個(gè)全局共享的大數(shù)據(jù)平臺(tái)。從 CEO 需要的 BI 部門實(shí)時(shí)業(yè)務(wù)報(bào)表、廣告部門的精準(zhǔn)定位、產(chǎn)品部門的個(gè)性化推薦,到用戶拓展部門的增長黑客技術(shù)、反欺詐部門的異常監(jiān)控、研發(fā)部門的實(shí)時(shí)產(chǎn)品反饋、運(yùn)維部門的智能運(yùn)維,相關(guān)的數(shù)據(jù)應(yīng)用都通過統(tǒng)一的數(shù)據(jù)工具運(yùn)行在同一個(gè)大數(shù)據(jù)平臺(tái)之上。
整個(gè)平臺(tái)中的數(shù)據(jù)能力共享和復(fù)用隨處可見:產(chǎn)品部門研發(fā)的用戶畫像可以被廣告部門用來精準(zhǔn)定位目標(biāo)客戶,社交圖譜被用來實(shí)現(xiàn)用戶拓展;反欺詐部門的機(jī)器人識(shí)別功能被廣告部門用來識(shí)別惡意點(diǎn)擊,被 BI 部門用來精確統(tǒng)計(jì)日活用戶;廣告部門開發(fā)的實(shí)時(shí)數(shù)據(jù)處理體系被產(chǎn)品部門用來提升推薦的實(shí)時(shí)性;諸如此類。
公司從 2011 年的 300 人發(fā)展到 2014 年的 4000 人,大數(shù)據(jù)平臺(tái)從 80 臺(tái)服務(wù)器的單純 Hadoop 集群擴(kuò)展到 8000 臺(tái)服務(wù)器的核心數(shù)據(jù)處理平臺(tái),都沒有出現(xiàn)數(shù)據(jù)孤島、應(yīng)用孤島及重復(fù)造輪子的問題。
更為重要的是,因?yàn)橛辛藦?qiáng)大的數(shù)據(jù)能力核心平臺(tái),Twitter 的產(chǎn)品迭代速度得到大幅提升。在 2011 年以前,開發(fā)和發(fā)布產(chǎn)品的流程非常冗長,產(chǎn)品經(jīng)理需要到各個(gè)部門調(diào)研可以使用的數(shù)據(jù),并協(xié)調(diào)數(shù)據(jù)的生產(chǎn)化問題。在產(chǎn)品推出之后,需要專門的數(shù)據(jù)工程師支持,定制單獨(dú)的數(shù)據(jù)看板和報(bào)表才能拿到產(chǎn)品的反饋。在大數(shù)據(jù)平臺(tái)逐漸完善之后,產(chǎn)品經(jīng)理可以直接在平臺(tái)上探索現(xiàn)有的數(shù)據(jù)和各種 API,與研發(fā)人員合作使用各種數(shù)據(jù)服務(wù)快速形成產(chǎn)品原型,然后通過數(shù)據(jù)平臺(tái)提供的測(cè)試框架快速發(fā)布測(cè)試,在發(fā)布后可以直接通過平臺(tái)提供的數(shù)據(jù)看板查看用戶反應(yīng),而無須自己編寫程序。整個(gè)產(chǎn)品的開發(fā)和迭代流程從以月計(jì)改為以周計(jì),活躍用戶數(shù)也從 2011 年不到 1 億增長到 2014 年接近 3 億。
本書作者之一彭鋒作為 Twitter 架構(gòu)師委員會(huì)中負(fù)責(zé)大數(shù)據(jù)體系的高級(jí)架構(gòu)師,在大數(shù)據(jù)平臺(tái)的建設(shè)中負(fù)責(zé)架構(gòu)設(shè)計(jì)和項(xiàng)目審計(jì),經(jīng)歷了從 80 臺(tái)機(jī)器的 Hadoop 集群到 8000 臺(tái)服務(wù)器集群的整個(gè)建設(shè)歷程。本書會(huì)穿插介紹 Twitter 大數(shù)據(jù)平臺(tái)建設(shè)的一些思路和經(jīng)驗(yàn)。
以上內(nèi)容摘自《云原生數(shù)據(jù)中臺(tái):架構(gòu)、方法論與實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。
2
? ?
《云原生數(shù)據(jù)中臺(tái):架構(gòu)、方法論與實(shí)踐》
前 Twitter 大數(shù)據(jù)平臺(tái)主任工程師撰寫,融合硅谷與國內(nèi)經(jīng)驗(yàn),全面講解云原生數(shù)據(jù)中臺(tái)架構(gòu)、選型、方法論、實(shí)施路徑,國內(nèi)外專家聯(lián)袂推薦
精彩文章推薦
微服務(wù)架構(gòu)設(shè)計(jì)總結(jié)實(shí)踐
2021-05-10
萬字長文精華之?dāng)?shù)據(jù)中臺(tái)構(gòu)建五步法
2021-05-07
從零開始搭建創(chuàng)業(yè)公司后臺(tái)技術(shù)棧
2021-04-29
代碼重構(gòu)技巧寶典,學(xué)透本篇就足夠了!
2021-04-27
梁鑫:美股交易架構(gòu)實(shí)踐
2021-04-26
王啟軍:云原生架構(gòu)下如何拆分微服務(wù)?
2021-04-20
原創(chuàng)精華:剖析億級(jí)請(qǐng)求下的多級(jí)緩存
2021-04-19
梁鑫:重構(gòu) - 在美股行情系統(tǒng)的實(shí)踐
2021-04-09
淺談架構(gòu):架構(gòu)的緣起與目標(biāo)
2021-04-07
重構(gòu) - 美股行情系統(tǒng)APP推送改造
2021-05-11
點(diǎn)擊“閱讀原文”了解更多數(shù)字化轉(zhuǎn)型好書
總結(jié)
以上是生活随笔為你收集整理的追根溯源 - 数据中台概念的起源的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java Web中数据从前端输入到插入数
- 下一篇: 阿里高专王夕宁:Istio网关之南北向流