《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...
1.2 大數(shù)據(jù)科學(xué)以及Hadoop和Spark在其中承擔(dān)的角色
數(shù)據(jù)科學(xué)的工作體現(xiàn)在以下這兩個(gè)方面:
要從數(shù)據(jù)中提取其深層次的規(guī)律性,意味著要使用統(tǒng)計(jì)算法提煉出有價(jià)值的信息。數(shù)據(jù)產(chǎn)品則是一種軟件系統(tǒng),其核心功能取決于對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的應(yīng)用。Google AdWords或Facebook里的“你可能認(rèn)識(shí)的人”就是數(shù)據(jù)產(chǎn)品的兩個(gè)例子。
1.2.1 從數(shù)據(jù)分析到數(shù)據(jù)科學(xué)的根本性轉(zhuǎn)變
從數(shù)據(jù)分析到數(shù)據(jù)科學(xué)的根本轉(zhuǎn)變的根源,是對(duì)更準(zhǔn)確的預(yù)測和創(chuàng)建更好的數(shù)據(jù)產(chǎn)品需求的不斷增長。
讓我們來看一個(gè)示例,其中解釋了數(shù)據(jù)分析和數(shù)據(jù)科學(xué)之間的差異。
問題:某大型電信公司有多個(gè)呼叫中心,負(fù)責(zé)收集呼叫者信息并將其存儲(chǔ)在數(shù)據(jù)庫和文件系統(tǒng)中。該公司已經(jīng)對(duì)呼叫中心數(shù)據(jù)實(shí)施數(shù)據(jù)分析,提供了以下分析結(jié)果:
現(xiàn)在,該電信公司希望減少客戶流失,改善客戶體驗(yàn),提高服務(wù)質(zhì)量,并通過以接近實(shí)時(shí)的方式了解客戶的情況,進(jìn)行交叉銷售和向上銷售。
解決方案:分析客戶的聲音。客戶的聲音比任何其他信息都有更深刻的含義。我們可以使用CMU Sphinx等工具將所有呼叫轉(zhuǎn)換為文本,并在Hadoop平臺(tái)上進(jìn)行擴(kuò)展。我們可以進(jìn)行文本分析以從數(shù)據(jù)中獲取分析結(jié)果,獲得高精確度的呼叫–文本轉(zhuǎn)換,創(chuàng)建適合該公司的模型(語言和聲學(xué)),并根據(jù)業(yè)務(wù)發(fā)生變化的頻度,隨時(shí)重新訓(xùn)練模型。此外,可以利用機(jī)器學(xué)習(xí)和自然語言處理(natural language processing,NLP)技術(shù)創(chuàng)建用于文本分析的模型,提供以下指標(biāo),合并到數(shù)據(jù)分析的指標(biāo)里:
請(qǐng)注意,這個(gè)用例的業(yè)務(wù)需求產(chǎn)生了從數(shù)據(jù)分析到實(shí)現(xiàn)機(jī)器學(xué)習(xí)和NLP算法的數(shù)據(jù)科學(xué)的根本轉(zhuǎn)變。為了實(shí)施這個(gè)解決方案,需要使用新的工具和技術(shù),還需要一個(gè)新的角色:數(shù)據(jù)科學(xué)家。
數(shù)據(jù)科學(xué)家具備多種技能—統(tǒng)計(jì)、軟件編程和業(yè)務(wù)專業(yè)知識(shí)。數(shù)據(jù)科學(xué)家能夠創(chuàng)建數(shù)據(jù)產(chǎn)品,并從數(shù)據(jù)中提煉出價(jià)值。讓我們來看看數(shù)據(jù)科學(xué)家與其他角色有什么不同。這會(huì)有助于我們理解在數(shù)據(jù)科學(xué)和數(shù)據(jù)分析項(xiàng)目中有哪些角色,以及他們要承擔(dān)哪些工作。
1. 數(shù)據(jù)科學(xué)家與軟件工程師
數(shù)據(jù)科學(xué)家和軟件工程師角色之間的區(qū)別如下:
2. 數(shù)據(jù)科學(xué)家與數(shù)據(jù)分析師
數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師角色之間的區(qū)別如下:
3. 數(shù)據(jù)科學(xué)家與業(yè)務(wù)分析師
數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師角色之間的區(qū)別如下:
1.2.2 典型數(shù)據(jù)科學(xué)項(xiàng)目的生命周期
讓我們學(xué)習(xí)如何了解和執(zhí)行典型的數(shù)據(jù)科學(xué)項(xiàng)目。
從圖1-4中所示的典型數(shù)據(jù)科學(xué)項(xiàng)目的生命周期可以看出,數(shù)據(jù)科學(xué)項(xiàng)目的生命周期是迭代的,而如圖1-3所示的數(shù)據(jù)分析項(xiàng)目的生命周期卻不是迭代的。在對(duì)項(xiàng)目結(jié)果進(jìn)行改善的情況下,定義問題和結(jié)果以及溝通這兩個(gè)階段沒有包含在迭代中。然而,整個(gè)項(xiàng)目的生命周期是迭代式的,它需要在生產(chǎn)實(shí)施后不斷地改進(jìn)。
在數(shù)據(jù)預(yù)處理階段,定義問題和結(jié)果的步驟與數(shù)據(jù)分析項(xiàng)目類似,如圖1-3所示。所以,讓我們來討論數(shù)據(jù)科學(xué)項(xiàng)目所需的新步驟。
1. 假設(shè)和建模
對(duì)于具體問題,要考慮所有能夠和預(yù)期結(jié)果相匹配的可行解決方案。這通常涉及關(guān)于這個(gè)問題的根本原因的假設(shè)。這樣,關(guān)于業(yè)務(wù)狀況的問題就會(huì)浮現(xiàn)出來,例如為什么客戶會(huì)取消服務(wù),為什么支持電話會(huì)顯著增加,以及為什么客戶會(huì)放棄購物車。
如果我們對(duì)數(shù)據(jù)有更深入的理解,根據(jù)某個(gè)假設(shè)就可以確定合適的模型。這就關(guān)系到理解數(shù)據(jù)的屬性及其相互關(guān)系,并通過定義用于測試、訓(xùn)練和生產(chǎn)的數(shù)據(jù)集來構(gòu)建建模所需的環(huán)境。我們可以利用機(jī)器學(xué)習(xí)算法(如邏輯回歸、K均值聚類、決策樹或樸素貝葉斯等)來構(gòu)建合適的模型。
2. 衡量有效性
模型的執(zhí)行是通過針對(duì)數(shù)據(jù)集運(yùn)行確定的模型來進(jìn)行的。通過利用正確的輸出對(duì)結(jié)果進(jìn)行核對(duì)可以衡量模型的有效性。我們可以使用測試數(shù)據(jù)驗(yàn)證結(jié)果,并創(chuàng)建像均方差(Mean Squared Error,MSE)之類衡量有效性的指標(biāo)。
3. 做出改進(jìn)
從衡量結(jié)果可以看到需要改進(jìn)的程度有多大。要考慮你會(huì)做出哪些改變。你可以問自己以下問題:
一旦你實(shí)施了改進(jìn)措施,就要對(duì)它們?cè)俅芜M(jìn)行測試,并將它們與以前的衡量結(jié)果進(jìn)行比較,以進(jìn)一步改進(jìn)解決方案。
4. 交流結(jié)果
針對(duì)結(jié)果的交流是數(shù)據(jù)科學(xué)項(xiàng)目生命周期中的重要一步。數(shù)據(jù)科學(xué)家描述數(shù)據(jù)中的發(fā)現(xiàn)的方式是把這些發(fā)現(xiàn)和業(yè)務(wù)問題關(guān)聯(lián)起來。報(bào)表和儀表板是交流結(jié)果的常用工具。
1.2.3 Hadoop和Spark 承擔(dān)的角色
Apache Hadoop為你提供了分布式存儲(chǔ)和資源管理功能,而Spark為你提供了數(shù)據(jù)科學(xué)應(yīng)用程序所需的內(nèi)存級(jí)性能。對(duì)于數(shù)據(jù)科學(xué)項(xiàng)目來說,Hadoop和Spark有以下的優(yōu)點(diǎn):
總結(jié)
以上是生活随笔為你收集整理的《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 翻译 | 摆脱浏览器限制的JavaScr
- 下一篇: [日推荐]『知乐邀请函』好用的H5制作工