专访 | 神策数据CEO桑文锋:谁说大数据不需要「小而美」
從前任百度大數(shù)據(jù)部門的技術(shù)經(jīng)理,到今天神策數(shù)據(jù)CEO,9年時(shí)間,桑文鋒身上發(fā)生了許多變化。他笑稱,這種變化從他的微信好友數(shù)量就能看出來(lái)。創(chuàng)業(yè)之前,他只有200多個(gè)好友,現(xiàn)在已經(jīng)迅速逼近5000人的上限。
大數(shù)據(jù)行業(yè)9年的歷程帶給他很多挑戰(zhàn),也改變了他的很多看法,但讓他對(duì)自己所選擇的道路愈加堅(jiān)定了。前不久,神策數(shù)據(jù)拿到了400萬(wàn)美元的A輪融資,桑文鋒與他團(tuán)隊(duì)的堅(jiān)持得到了認(rèn)可。
近期,CDA約訪到了桑文鋒先生,聽(tīng)他聊聊他對(duì)大數(shù)據(jù)行業(yè)的看法。
下文根據(jù)采訪實(shí)錄整理:
桑文鋒神策數(shù)據(jù)CEO“CDA:大數(shù)據(jù)領(lǐng)域的創(chuàng)業(yè)公司日漸增多,您怎么看待目前市場(chǎng)中的機(jī)遇和挑戰(zhàn)?
桑文鋒:我自2007年從浙江大學(xué)研究生畢業(yè)之后進(jìn)入百度,一開(kāi)始在百度知道做研發(fā)工作,第二年就開(kāi)始做數(shù)據(jù)領(lǐng)域的工作。
百度推崇用數(shù)據(jù)說(shuō)話,它本身的數(shù)據(jù)規(guī)模也比較大,懂?dāng)?shù)據(jù),對(duì)數(shù)據(jù)也比較重視。從2008年開(kāi)始,我負(fù)責(zé)一個(gè)小團(tuán)隊(duì),基于Hadoop搭建了一些數(shù)據(jù)處理平臺(tái),主要用來(lái)處理百度的產(chǎn)品數(shù)據(jù),比如它的用戶量、訪問(wèn)量等等。
那個(gè)時(shí)候沒(méi)有大數(shù)據(jù)的概念,大家談?wù)摰亩际窃朴?jì)算。到2011年、2012年左右,大數(shù)據(jù)的概念就比較火了,當(dāng)時(shí)意識(shí)到大數(shù)據(jù)技術(shù)很有價(jià)值,但是數(shù)據(jù)基本都集中在BAT。
最近三四年業(yè)內(nèi)比較大,主要表現(xiàn)在:
一是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,傳感器的發(fā)展,讓以前收集不到的數(shù)據(jù)現(xiàn)在可以收集到了,線下的行為轉(zhuǎn)移到線上,這讓一些規(guī)模比較小的公司也能夠獲取數(shù)據(jù);
二是大數(shù)據(jù)處理的軟硬件基礎(chǔ)在不斷成熟,摩爾定律,機(jī)器越來(lái)越便宜,性能越來(lái)越高,像Hadoop這種基礎(chǔ)的大數(shù)據(jù)處理平臺(tái)越來(lái)越成熟,很容易搭建并使用;
三是,雖然前幾年大數(shù)據(jù)不乏炒作概念之嫌,但也有一點(diǎn)好處,就是提高了人們對(duì)于數(shù)據(jù)的重視程度,你不用再跟對(duì)方科普數(shù)據(jù)有多重要了,他已經(jīng)開(kāi)始自覺(jué)地關(guān)注如何讓數(shù)據(jù)發(fā)揮更大的價(jià)值。
在這種大環(huán)境下,大數(shù)據(jù)技術(shù)能夠在很多領(lǐng)域被很多企業(yè)利用。而我最終出來(lái)創(chuàng)業(yè),其實(shí)賭了兩個(gè)潮流:一個(gè)是創(chuàng)業(yè)潮,國(guó)家鼓勵(lì)創(chuàng)業(yè),重視創(chuàng)業(yè),創(chuàng)業(yè)公司的數(shù)量不斷增多,代表著企業(yè)對(duì)于數(shù)據(jù)的潛在需求越來(lái)越大。另外一個(gè)是互聯(lián)網(wǎng)+,許多傳統(tǒng)企業(yè)面臨轉(zhuǎn)型,從線下轉(zhuǎn)到線上,轉(zhuǎn)型過(guò)程中必定也會(huì)產(chǎn)生數(shù)據(jù)的需求。吳軍在他的《浪潮之巔》中提到,科技領(lǐng)域的發(fā)展趨勢(shì)就是一波波浪潮,跟著浪潮走會(huì)更容易把事情做成。目前互聯(lián)網(wǎng)創(chuàng)業(yè)的浪潮能夠推動(dòng)我們?nèi)グl(fā)現(xiàn)和把握時(shí)機(jī)。
桑文鋒:數(shù)據(jù)分析不是一個(gè)新概念,早些年就已經(jīng)有不少公司在這個(gè)領(lǐng)域發(fā)力,覆蓋的用戶量也很高。目前市場(chǎng)上的部分?jǐn)?shù)據(jù)分析產(chǎn)品有優(yōu)點(diǎn),也存在著問(wèn)題。好處在于一是簡(jiǎn)單免費(fèi),不足的地方在于數(shù)據(jù)采集能力比較弱,一般只能采集客戶端的數(shù)據(jù),服務(wù)端、數(shù)據(jù)庫(kù)的數(shù)據(jù)不多,這就會(huì)影響后期的分析;第二點(diǎn)在分析能力,一般做宏觀分析都沒(méi)有問(wèn)題,比較難實(shí)現(xiàn)的是多維度的交叉分析;第三點(diǎn)是數(shù)據(jù)安全,用戶會(huì)對(duì)數(shù)據(jù)存儲(chǔ)產(chǎn)生安全顧慮。
神策數(shù)據(jù)的定位是針對(duì)互聯(lián)網(wǎng)公司的用戶行為分析。有這么幾個(gè)特點(diǎn):
第一,提供私有化部署,用戶可以把他需要的服務(wù)部署到自己的服務(wù)器上,數(shù)據(jù)不會(huì)出他自己的環(huán)境,打消了他們的安全顧慮。
第二,強(qiáng)調(diào)全端數(shù)據(jù)接入。不管是客戶端的數(shù)據(jù),還是服務(wù)端數(shù)據(jù)庫(kù)的數(shù)據(jù)都可以接入,提供可視化埋點(diǎn)、代碼埋點(diǎn)、工具導(dǎo)入等等,有了數(shù)據(jù)才能更好地分析。
第三,神策基于PaaS平臺(tái),一般比較常用的是SaaS服務(wù),二者的區(qū)別在于SaaS很難進(jìn)行二次開(kāi)發(fā)和深度利用,它不提供接口,你也很難建模,而用戶在PaaS平臺(tái)可以進(jìn)行二次開(kāi)發(fā)和存儲(chǔ)利用。從數(shù)據(jù)采集、存儲(chǔ)、建模分析到可視化,用PaaS平臺(tái)可以做到每一個(gè)環(huán)節(jié)對(duì)用戶開(kāi)放,把數(shù)據(jù)讀取出來(lái),進(jìn)行深度利用。用Hadoop、Spark搭建的大數(shù)據(jù)框架也可以直接訪問(wèn)。
另外,用戶的每一個(gè)行為就是一個(gè)事件,比如提交訂單,瀏覽網(wǎng)頁(yè),可以理解為一系列事件。我們的平臺(tái)可以自定義用戶的事件以及事件相關(guān)的維度。要分析的產(chǎn)品各不相同,但事件的本質(zhì)是一樣的,我們有靈活的機(jī)制去適配。所以,所有的用戶只需要用同一個(gè)數(shù)據(jù)分析平臺(tái)就可以滿足需求,沒(méi)有太多定制化的東西,節(jié)省了很大成本。
大數(shù)據(jù)的概念很寬泛,專注于某一個(gè)領(lǐng)域更容易成功。比如我們專注于用戶行為分析,把這一個(gè)點(diǎn)做好就可以了,如果泛泛地什么都去嘗試,反而不能夠垂直深入。
2015年是大數(shù)據(jù)落地的一個(gè)年份,前兩年雖然有很多人在炒概念,但近期出現(xiàn)的數(shù)據(jù)公司都開(kāi)始從某一個(gè)點(diǎn)切入,這是一種更務(wù)實(shí)更科學(xué)的方式。可能將來(lái)會(huì)出現(xiàn)行業(yè)的整合,但是目前那些小而精、小而美的產(chǎn)品存活下來(lái)的機(jī)會(huì)比較大。
很多人傾向于在現(xiàn)階段要掌握數(shù)據(jù),怎么能拿到數(shù)據(jù)怎么干,但我認(rèn)為這種思路背離了以用戶為中心的理念。不能只想著自己掌握數(shù)據(jù),更重要的是要知道用戶真正需要什么。所以我認(rèn)為大數(shù)據(jù)本身發(fā)展大概會(huì)分成兩個(gè)階段:第一個(gè)階段是能力階段,第二個(gè)階段是價(jià)值階段。現(xiàn)在大家知道數(shù)據(jù)很重要,但是不知道怎么做,你要提供好的數(shù)據(jù)分析工具,讓他有能力做,這是第一個(gè)階段。這個(gè)階段過(guò)后,工具普及了,人們更關(guān)注怎么從數(shù)據(jù)中挖掘更多的價(jià)值,這是第二個(gè)階段。
桑文鋒:不能把數(shù)據(jù)太神話了,一定要結(jié)合業(yè)務(wù)看待。我們最早從電商類的企業(yè)切入,因?yàn)閷?duì)電商類的企業(yè)而言數(shù)據(jù)最關(guān)鍵,每一種商品的瀏覽情況、下單情況,用戶的轉(zhuǎn)化情況,每一種數(shù)據(jù)都直接與它的業(yè)務(wù)相關(guān)。在我們看來(lái)跟訂單與交易相關(guān)的數(shù)據(jù)價(jià)值會(huì)更明顯一些。比如,你去投放廣告,你去衡量在不同平臺(tái)投放廣告的效果如何,就要去對(duì)比不同渠道轉(zhuǎn)化的付費(fèi)用戶的比例有多少,平均客單價(jià)有多高、復(fù)購(gòu)情況如何,只有經(jīng)過(guò)這些分析,你才能知道不同廣告平臺(tái)的價(jià)值區(qū)別在哪里,就可以從拍腦袋的方式轉(zhuǎn)化到數(shù)據(jù)驅(qū)動(dòng)的方式。
現(xiàn)階段對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō),數(shù)據(jù)采集是比較難的。一方面是不知道怎么采集數(shù)據(jù),另一方面是不知道應(yīng)該采集哪些數(shù)據(jù),更不知道怎樣把這些數(shù)據(jù)建模。所以我們一方面提供全端接入的模式,一方面也建立了數(shù)據(jù)分析團(tuán)隊(duì),幫助用戶理清思路,梳理維度,讓他們比較容易得落地;另外就是數(shù)據(jù)分析的理念問(wèn)題,很多用戶不知道怎么做數(shù)據(jù)分析,那么我們?cè)诋a(chǎn)品之外還需要灌輸理念,做一些科普的工作。這方面也是個(gè)坎,但是在過(guò)個(gè)三五年,數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的理念應(yīng)該就能夠更廣泛地被接受。
(小編插播:桑文鋒先生將在CDAS2016中國(guó)數(shù)據(jù)分析師行業(yè)峰會(huì)上繼續(xù)深入探討這個(gè)問(wèn)題,敬請(qǐng)期待!移步閱讀原文即可報(bào)名)
桑文鋒:大數(shù)據(jù)不是聽(tīng)一兩次課或者看一兩本書(shū)就能摸清楚的,還是需要有實(shí)踐經(jīng)驗(yàn),比如說(shuō)我之所以對(duì)大數(shù)據(jù)有信心,就是在百度的那幾年接觸過(guò)各種技術(shù),知道各種場(chǎng)景應(yīng)該怎樣做處理,你本身要有機(jī)會(huì)去處理一些數(shù)據(jù)相關(guān)的問(wèn)題。如果想做數(shù)據(jù)工程師,就以開(kāi)發(fā)平臺(tái)架構(gòu)已出發(fā)點(diǎn),多去尋找這樣的機(jī)會(huì),對(duì)于分析師來(lái)說(shuō),則要首先培養(yǎng)自己數(shù)據(jù)驅(qū)動(dòng)的理念,基于這種理念去做分析,自然能力就提升了。
對(duì)于大數(shù)據(jù)分析師這個(gè)崗位,我可以推薦一本書(shū)叫《精益數(shù)據(jù)分析》,主要講互聯(lián)網(wǎng)公司是如何做數(shù)據(jù)分析的。其實(shí)大數(shù)據(jù)分析的分析方法不難,難的是如何基于業(yè)務(wù)場(chǎng)景靈活運(yùn)用,所以要先構(gòu)建理念。這本書(shū)在應(yīng)用上可以給你一些啟發(fā)。也不要把自己局限于分析工作,多了解業(yè)務(wù)。
文章來(lái)源:CDA數(shù)據(jù)分析師
總結(jié)
以上是生活随笔為你收集整理的专访 | 神策数据CEO桑文锋:谁说大数据不需要「小而美」的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 译文| 相信指标还是相信经验?
- 下一篇: Worktile:DNA中带有“效率”精