要做的题目-要用到hadoop资源
關于項目,我出兩個練手題目:
一、多機數據處理。有?10?臺機器,每臺機器上保存著?10?億個?64-bit?整數(不一定剛好?10?億個,可能有上下幾千萬的浮動),一共約?100?億個整數(其實一共也就?80GB?數據,不算大,選這個量級是考慮了?VPS?虛擬機的容量,便于實驗)。編程求出:
1.?這些數的平均數。
2.?這些數的中位數。
3.?出現次數最多的?100?萬個數。
*4.?(附加題)對這?100?億個整數排序,結果順序存放到這?10?臺機器上。
*5.?(附加健壯性要求)你的程序應該能正確應對輸入數據的各種分布(均勻、正態、Zipf)。
*6.?(附加伸縮性要求)你的程序應該能平滑擴展到更多的機器,支持更大的數據量。比如?20?臺機器、一共?200?億個整數,或者?50?臺機器、一共?500?億個整數。
?
二、N-皇后問題的多機并行求解。利用多臺機器求出?N-皇后問題有多少個解。(注意目前的世界紀錄是?N = 26,A000170 - OEIS?)
1. 8?皇后問題在單機上的運算時間是毫秒級,有?92?個解,編程實現之。
2.?研究?N-皇后問題的并行算法,寫一個單機多線程程序,爭取達到線性加速比(以?CPU?核數計)。再設法將算法擴展到多機并行。
3.?用?10?臺?8?核的機器(一共?80?個?CPU cores),求解?19-皇后和?20-皇后問題,看看分別需要多少運行時間。你的方案能否平滑擴展到更多的機器?
*4.?(附加題)如果這?10?臺機器的型號不一,有?8?核也有?16?核,有舊?CPU也有更快的新?CPU,你該采用何種負載均衡策略,以求縮短求解問題的時間(至少比?plain round-robin?算法要好)?
?
其他內容,詳見以下文章:
http://fpcfjf.blog.163.com/blog/static/55469793201681811258259/
(轉載)陳碩對新的人建議??
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的要做的题目-要用到hadoop资源的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聊聊原子操作那些事
- 下一篇: python 学习笔记day03-pyt