《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
暑假閑得蛋癢,混混沌沌,開始看《Data-Intensive Text Processing with mapReduce》,盡管有諸多單詞不懂,還好六級考多了,雖然至今未過;再加上自己當研究僧有一段時間了,經書尚且能懂;故本書大概內容及技術還是理解的。一種閑散的心態開始了對一本技術型書籍的啃讀。
此外,看到本校論壇上的技術帖如此冷清,八卦帖依然火爆…..堂堂985+211理工學校的猛男,悍妹,難道都思春去了;實在不給力。閑話少說,開帖(尼瑪,最近鍵盤總是在碼字到某個字符的時候突然卡死,棄之,轉手寫,以后再碼上)。
《Data-Intensive Text Processing with mapReduce》讀書筆記之一:前言
Mapreduce是一種分布式的程序設計模式。作者首先提出了“Why”,答案是:大數據。那就先來說說數據。
數據的產生:大數據時代,比如咱們的搜索行為、購物習慣、看片類型、社交等,就在各巨頭的服務器上存在,并且爆炸式增長。
數據的管理:隨著硬件的發展,數據中心越來越多,有能力存了,但是真正會用的公司也就那么幾家。
數據的分析:即數據挖掘,用于商業智能、統計學習、決策等。也說本人最感興趣的。
例子:詞性標志。(前言用了大量自然語言處理(NLP)例子, 推薦一本正在看的書,中科院宗成慶的《統計自然語言處理》,超新星視頻有他的課程,校園網免費,可在實驗室高速下載,而后慢慢學習研究,當然里面還有很多豐富的課程,沒事的時候,別老泡圖書館,看視頻,學得更快。天文地理,文學藝術,我已經把感興趣的下得差不多了)
機器如何對輸入的語句進行斷句(專業講就是分詞,且標出每個詞的詞性,是名詞,還是其他)。首先要有語料庫,如果可能,就是人類有史以來所以的文字記載,這就是數據啊,量夠大吧,根據統計獲得各種斷句的概率分布,屬于這樣切分的概率是多少,那樣的概率是多少,就是分類問題。但是語言博大精深,如果碰到一個詞有可能有多種詞性,就要考慮上下文的關系,這就是多元的語言模型了建立條件概率,根據龐大的語料庫,單機計算猶如慢慢長夜,基于群集的分布式處理才能實現高效,mapreduce就派上用場了。
總之,數據驅動一切。而此書主要針對文本型的密集數據進行處理,此外作者還總結了幾個有意思的觀點:
1). 至少對于文本數據,其研究有三要素:數據本身、特征(數據的表示,或者說模型)以及算法(求解模型的數學方法);我們說數據就是點,點連成線就是建了模型,而點如何成線就要萬能的Mathematics,然后根據你輸入的點,就可以根據模型拿到你想要的。
2). 數據量越大,學習的準確率越高,引發了爭議:只要有足夠的數據,機器存儲量夠大、運行速度夠快,算法并不重要。機器學習算法的研究者可以歇菜了。尼瑪,研究了兩年的算法難道就白費了,還好只是爭議,況且目前數據和硬件還無法實現。
3). 平滑處理。大數據的處理,離不開統計。數據缺失時有發生,以前沒被雷劈過并表示你下雨打手機一定安全。在語音識別、機器翻譯時候的,平滑處理顯得尤為重要。
說了一大堆why后,就講到了what?不是的。是漸漸扯遠了,只為吸引你。
從傳統的并行計算(MPI)、網格計算到效用計算(提供服務的計算模型)。云的最高境界,即一切的一切均抽象為服務。當前就有流行的的3S,IaaS、PaaS以及SaaS。而Mapreduce設計模型恰是一種Powerful的抽象手段,將What和How分離,你只需享受終端的各種服務,怎么做的,那是云端的事情。這讓我常想起廣告中的一些詞,如“聯所未連”、“智慧地球”。
??? 2.? 強大的思想
1).橫向拓展,非縱向延伸——普通pc機就能搭建龐大的群集,無需高性能計算機,成本低;
2).容錯性。當出現down機時,自動重新分配節點,依然能正確提供服務,神不知鬼不覺;
3).計算本地化,盡量存儲與計算的分離,減少過多的網絡傳輸;
4).數據大而密集,采用批處理,順序讀取,避免隨機讀取。盡管對固態硬盤而言,兩種讀取差不多,但是固態硬盤的缺陷也很明顯,容量小,成本高,還短命;
5).對開發者而言,So easy,再也不用考慮過多的實現細節了,只需描述你要做什么,怎么做大多是系統封裝好了的;
6)擴展能力,數據增大,可擴展群集。當數據固定,增加節點,執行更快,具有線性加速比。
???? 3.?? 與眾不同
隨著存儲成本下降,hadoop開源發展,云服務變得簡單,大數據無非就是存儲、算法處理、可視化。Mapreduce在存儲與算法間鍵搭起橋梁。群集的數據中心正如一臺超級電腦,馮氏計算機模型將不再高效。
??? ?4.?? 此書的內容
此書主要針對密集文本進行分析,提出算法設計及應用。基于hadoop的Mapreduce開源實現,但不會探討hadoop的api使用,如需了解,推薦《hadoop權威指南》(目前也在艱難的啃讀當中)。
結束語:
今日獲悉,長沙又將迎來創紀錄的持續高溫天氣,酷暑已超過寂寞,實在難耐,祝各位涼快!
轉載于:https://www.cnblogs.com/csufubo/p/3232034.html
總結
以上是生活随笔為你收集整理的《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据库三范式的理解(引用其他网友)
- 下一篇: 解决J2EE系统应用性能问题常用方法