python大数据工程师 培训_大数据工程师学习之路
大數(shù)據(jù)的作用:發(fā)現(xiàn)過去事件的特征
預(yù)測未來
最優(yōu)化選擇
職位劃分:數(shù)據(jù)產(chǎn)品經(jīng)理
數(shù)據(jù)分析師->商業(yè)敏感性,產(chǎn)品經(jīng)理的助手
數(shù)據(jù)研發(fā)工程師
數(shù)據(jù)挖掘工程師/數(shù)據(jù)科學(xué)家
需要準(zhǔn)備的技術(shù)知識:
Linux操作系統(tǒng)與網(wǎng)絡(luò)編程:進(jìn)程/線程通信,內(nèi)存,TCP/IP,SaaS、PaaS、IaaS
Java:多線程,JVM,反射,設(shè)計(jì)模式,Springboot
數(shù)據(jù)結(jié)構(gòu)與算法
Hadoop生態(tài)體系:
Hadoop起源與安裝、MapReduce快速入門、Hadoop分布式文件系統(tǒng)、Hadoop文件I/O詳解、MapReduce工作原理、MapReduce編程開發(fā)、Hive數(shù)據(jù)倉庫工具、開源數(shù)據(jù)庫HBase、Sqoop與Oozie;
Spark生態(tài)體系:
Spark簡介、Spark部署和運(yùn)行、Spark程序開發(fā)、Spark編程模型、作業(yè)執(zhí)行解析、Spark SQL與DataFrame、深入Spark Streaming、Spark MLlib與機(jī)器學(xué)習(xí)、GraphX與SparkR、spark項(xiàng)目實(shí)戰(zhàn)、scala編程、Python編程;
Storm實(shí)時(shí)開發(fā):
storm簡介與基本知識、拓?fù)湓斀馀c組件詳解、Hadoop分布式系統(tǒng)、spout詳解與bolt詳解、zookeeper詳解、storm安裝與集群搭建、storm-starter詳解、開源數(shù)據(jù)庫HBase、trident詳解;
算法:分類/聚類/關(guān)聯(lián)/預(yù)測,Apriori,決策樹,隨機(jī)森林,SVM
BerkeleyX: CS190.1x Scalable Machine Learning
這門課是伯克利開的,教機(jī)器學(xué)習(xí)基礎(chǔ)、Python Spark實(shí)現(xiàn)。我很懂機(jī)器學(xué)習(xí),但不懂spark和python,花了1周多時(shí)間看完視頻、做完作業(yè)。如果沒機(jī)器學(xué)習(xí)基礎(chǔ)的話幾周應(yīng)該夠了。學(xué)完了可以用spark處理大數(shù)據(jù),做分類、推薦系統(tǒng)。
TalkingData
總結(jié)
以上是生活随笔為你收集整理的python大数据工程师 培训_大数据工程师学习之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于计算机应用技术的创业策划书,创新创业
- 下一篇: 只用一招!Python实现微信防撤回!