當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言

發布時間：2025/4/9 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

暑假閑得蛋癢，混混沌沌，開始看《Data-Intensive Text Processing with mapReduce》，盡管有諸多單詞不懂，還好六級考多了，雖然至今未過；再加上自己當研究僧有一段時間了，經書尚且能懂；故本書大概內容及技術還是理解的。一種閑散的心態開始了對一本技術型書籍的啃讀。

此外，看到本校論壇上的技術帖如此冷清，八卦帖依然火爆…..堂堂985+211理工學校的猛男，悍妹，難道都思春去了；實在不給力。閑話少說，開帖（尼瑪，最近鍵盤總是在碼字到某個字符的時候突然卡死，棄之，轉手寫，以后再碼上）。

《Data-Intensive Text Processing with mapReduce》讀書筆記之一：前言

Mapreduce是一種分布式的程序設計模式。作者首先提出了“Why”，答案是：大數據。那就先來說說數據。

數據的產生：大數據時代，比如咱們的搜索行為、購物習慣、看片類型、社交等，就在各巨頭的服務器上存在，并且爆炸式增長。

數據的管理：隨著硬件的發展，數據中心越來越多，有能力存了，但是真正會用的公司也就那么幾家。

數據的分析：即數據挖掘，用于商業智能、統計學習、決策等。也說本人最感興趣的。

例子：詞性標志。（前言用了大量自然語言處理（NLP）例子，推薦一本正在看的書，中科院宗成慶的《統計自然語言處理》，超新星視頻有他的課程，校園網免費，可在實驗室高速下載，而后慢慢學習研究，當然里面還有很多豐富的課程，沒事的時候，別老泡圖書館，看視頻，學得更快。天文地理，文學藝術，我已經把感興趣的下得差不多了）

機器如何對輸入的語句進行斷句(專業講就是分詞，且標出每個詞的詞性，是名詞，還是其他)。首先要有語料庫，如果可能，就是人類有史以來所以的文字記載，這就是數據啊，量夠大吧，根據統計獲得各種斷句的概率分布，屬于這樣切分的概率是多少，那樣的概率是多少，就是分類問題。但是語言博大精深，如果碰到一個詞有可能有多種詞性，就要考慮上下文的關系，這就是多元的語言模型了建立條件概率，根據龐大的語料庫，單機計算猶如慢慢長夜，基于群集的分布式處理才能實現高效，mapreduce就派上用場了。

總之，數據驅動一切。而此書主要針對文本型的密集數據進行處理，此外作者還總結了幾個有意思的觀點：

1). 至少對于文本數據，其研究有三要素：數據本身、特征(數據的表示，或者說模型)以及算法（求解模型的數學方法）；我們說數據就是點，點連成線就是建了模型，而點如何成線就要萬能的Mathematics，然后根據你輸入的點，就可以根據模型拿到你想要的。

2). 數據量越大，學習的準確率越高，引發了爭議：只要有足夠的數據，機器存儲量夠大、運行速度夠快，算法并不重要。機器學習算法的研究者可以歇菜了。尼瑪，研究了兩年的算法難道就白費了，還好只是爭議，況且目前數據和硬件還無法實現。

3). 平滑處理。大數據的處理，離不開統計。數據缺失時有發生，以前沒被雷劈過并表示你下雨打手機一定安全。在語音識別、機器翻譯時候的，平滑處理顯得尤為重要。

說了一大堆why后，就講到了what？不是的。是漸漸扯遠了，只為吸引你。

云計算

從傳統的并行計算(MPI)、網格計算到效用計算(提供服務的計算模型)。云的最高境界，即一切的一切均抽象為服務。當前就有流行的的3S，IaaS、PaaS以及SaaS。而Mapreduce設計模型恰是一種Powerful的抽象手段，將What和How分離，你只需享受終端的各種服務，怎么做的，那是云端的事情。這讓我常想起廣告中的一些詞，如“聯所未連”、“智慧地球”。

??? 2.? 強大的思想

1).橫向拓展，非縱向延伸——普通pc機就能搭建龐大的群集，無需高性能計算機，成本低；

2).容錯性。當出現down機時，自動重新分配節點，依然能正確提供服務，神不知鬼不覺；

3).計算本地化，盡量存儲與計算的分離，減少過多的網絡傳輸；

4).數據大而密集，采用批處理，順序讀取，避免隨機讀取。盡管對固態硬盤而言，兩種讀取差不多，但是固態硬盤的缺陷也很明顯，容量小，成本高，還短命；

5).對開發者而言，So easy，再也不用考慮過多的實現細節了，只需描述你要做什么，怎么做大多是系統封裝好了的；

6)擴展能力，數據增大，可擴展群集。當數據固定，增加節點，執行更快，具有線性加速比。

???? 3.?? 與眾不同

隨著存儲成本下降，hadoop開源發展，云服務變得簡單，大數據無非就是存儲、算法處理、可視化。Mapreduce在存儲與算法間鍵搭起橋梁。群集的數據中心正如一臺超級電腦，馮氏計算機模型將不再高效。

??? ?4.?? 此書的內容

此書主要針對密集文本進行分析，提出算法設計及應用。基于hadoop的Mapreduce開源實現，但不會探討hadoop的api使用，如需了解，推薦《hadoop權威指南》（目前也在艱難的啃讀當中）。

結束語：

今日獲悉，長沙又將迎來創紀錄的持續高溫天氣，酷暑已超過寂寞，實在難耐，祝各位涼快！

轉載于:https://www.cnblogs.com/csufubo/p/3232034.html

總結

以上是生活随笔為你收集整理的《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：数据库三范式的理解（引用其他网友）
下一篇：解决J2EE系统应用性能问题常用方法

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

编程问答

《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操