Spark 简介
==>?什么是?Spark
????--->?Spark?是一個(gè)針對(duì)大規(guī)模數(shù)據(jù)處理的快速通用引擎
? ??--->?Spark?是?MapReduce?的替代方案,而且兼容 HDFS, Hive,?可容入Hadoop?的生態(tài)系統(tǒng),彌補(bǔ)?MapReduce?的不足
R
? ??--->?RDD?可簡(jiǎn)單理解為:?一個(gè)提供了很多操作接口的數(shù)據(jù)集合,分布式存儲(chǔ)于集群環(huán)境中的存儲(chǔ)設(shè)備中(內(nèi)存或硬盤),其中包括容錯(cuò),并行處理等功能
==> Spark?特點(diǎn)
????--->?快
????????----?優(yōu)點(diǎn):與Mapreduce?相比,Spark?基于內(nèi)存運(yùn)算,運(yùn)算速度要快100倍,基于硬盤計(jì)算,運(yùn)算速度要快 10?倍
? ? ????----?缺點(diǎn):沒(méi)有對(duì)內(nèi)存進(jìn)行管理,把所有的內(nèi)存管理都交給應(yīng)用程序,以彌補(bǔ)MapReduce的不足,
????????????????????????容易出現(xiàn)?OOM(out? of? memory),?可使用?Java? Heap? Dump? 工具分析?Java?程序的內(nèi)存溢出
????--->?易用?
????????----?Spark?支持?Java ,Python, Scala?的 API?
? ??????----?支持80多種算法
? ??????----?支持交互式,可以在shell?中使用Spark?驗(yàn)證解決問(wèn)題的方法
????--->?通用(生態(tài)圈)
? ??????----?批處理
? ??????----?交互式查詢? ?(Spark? SQL)
? ??????----?實(shí)時(shí)流處理????(Spark Streaming)
? ??????----?機(jī)器學(xué)習(xí)????????( Spark? MLlib )
? ??????----?圖計(jì)算????????????( GraphX )
? ??????----?與?Hadoop?很好的融合,?可以直接操作 HDFS,?并提供?Hive on Spark, Pig on Spark的框架集成?Hadoop(配置Hive on Spark?還不成熟)
????--->?兼容性????可以非常方便的與其它開(kāi)源產(chǎn)品進(jìn)行融合
? ??????----?可以使用?Hadoop?的??YARN?和?Apache? Mesos?作為它的資源管理調(diào)度器
? ??????----??可以處理所有?Hadoop?支持的數(shù)據(jù):HDFS, HBase,? Cassandra?等
? ??????----?不需要做任何的數(shù)據(jù)遷移就可以使用?Spark?的強(qiáng)大處理能力
? ??????----?可以不依賴第三方的資源管理和調(diào)度器,實(shí)現(xiàn)?Standalone?作為它的內(nèi)置的資源管理和調(diào)試框架,降低部署的復(fù)雜性
? ??????----??提供了在?EC2?上部署?Standalone?的Spark?集群工具
==>?Spark?生太圈
????--->?Spark Core
????---> Spark SQL
????---> Spark Streaming
????---> Spark MLLib:?機(jī)器學(xué)習(xí)
????--->?Spark GraphX:?圖計(jì)算
本文轉(zhuǎn)自 菜鳥(niǎo)的征程 51CTO博客,原文鏈接:http://blog.51cto.com/songqinglong/2072605
總結(jié)
- 上一篇: CentOS 6.7 FTP安装配置之p
- 下一篇: Scala 语言之模式匹配(6)