Spark精华问答 | RDD的核心概念是什么?
Hadoop再火,火得過Spark嗎?今天我們繼續關于Spark的精華問答吧。
1
Q:RDD的核心概念是什么?
A:Client:客戶端進程,負責提交作業到Master。
Master:Standalone模式中主控節點,負責接收Client提交的作業,管理Worker,并命令Worker啟動分配Driver的資源和啟動Executor的資源。
Worker:Standalone模式中slave節點上的守護進程,負責管理本節點的資源,定期向Master匯報心跳,接收Master的命令,啟動Driver和Executor。
Driver: 一個Spark作業運行時包括一個Driver進程,也是作業的主進程,負責作業的解析、生成Stage并調度Task到Executor上。包括DAGScheduler,TaskScheduler。
Executor:即真正執行作業的地方,一個集群一般包含多個Executor,每個Executor接收Driver的命令Launch Task,一個Executor可以執行一到多個Task。
Q:RDD有哪些常見術語?
A:DAGScheduler: 實現將Spark作業分解成一到多個Stage,每個Stage根據RDD的Partition個數決定Task的個數,然后生成相應的Task set放到TaskScheduler中。
TaskScheduler:實現Task分配到Executor上執行。
Task:運行在Executor上的工作單元
Job:SparkContext提交的具體Action操作,常和Action對應
Stage:每個Job會被拆分很多組任務(task),每組任務被稱為Stage,也稱TaskSet
RDD:Resilient Distributed Datasets的簡稱,彈性分布式數據集,是Spark最核心的模塊和類
Transformation/Action:SparkAPI的兩種類型;Transformation返回值還是一個RDD,Action返回值不少一個RDD,而是一個Scala的集合;所有的Transformation都是采用的懶策略,如果只是將Transformation提交是不會執行計算的,計算只有在Action被提交時才會被觸發。
DataFrame:帶有Schema信息的RDD,主要是對結構化數據的高度抽象。
DataSet:結合了DataFrame和RDD兩者的優勢,既允許用戶很方便的操作領域對象,又具有SQL執行引擎的高效表現。
Q:RDD提供了哪些操作?
A:RDD提供了兩種類型的操作:
transformation和action
1,transformation是得到一個新的RDD,方式很多,比如從數據源生成一個新的RDD,從RDD生成一個新的RDD
2,action是得到一個值,或者一個結果(直接將RDD cache到內存中)
3,所有的transformation都是采用的懶策略,就是如果只是將transformation提交是不會執行計算的,計算只有在action被提交的時候才被觸發。
Q:RDD中關于轉換(transformation)與動作(action)有什么區別?
A:transformation會生成新的RDD,而后者只是將RDD上某項操作的結果返回給程序,而不會生成新的RDD;無論執行了多少次transformation操作,RDD都不會真正執行運算(記錄lineage),只有當action操作被執行時,運算才會觸發。
Q:RDD 與 DSM的最大不同是什么?
A:RDD只能通過粗粒度轉換來創建,而DSM則允許對每個內存位置上數據的讀和寫。在這種定義下,DSM不僅包括了傳統的共享內存系統,也包括了像提供了共享 DHT(distributed hash table) 的 Piccolo 以及分布式數據庫等。
小伙伴們沖鴨,后臺留言區等著你!
關于Spark,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!
推薦閱讀:
技術頭條
2019年技術盤點微服務篇(二):青云直上云霄?|?程序員硬核評測
“入職?6?年,新人工資高我?2?千”:老板不加錢,不是嫌你老
從沉迷游戲到沉迷編程,16?歲賺?20?萬美元!
南大和中大“合體”拯救手殘黨:基于GAN的PI-REC重構網絡,“老婆”畫作有救了?|?技術頭條
救救中國?996?程序員!GitHub?近?230,000?Star、Python?之父伸張正義!
一個月修復20個漏洞獲23675美元賞金, 原來是黑客隊伍里出了無間道
真香,朕在看了!
總結
以上是生活随笔為你收集整理的Spark精华问答 | RDD的核心概念是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 辞工多久可以取公积金 职工提取公积金申请
- 下一篇: Boost:异步操作,涉及重新打包多个操