spark和hadoop升级记录(持续更新中)
昨晚從spark-2.3.1-bin-hadoop2.7升級到spark-3.0.0-preview2-bin-hadoop3.2
基本結論是:
/etc/hosts不用修改
~/.bashrc中路徑改下(就是和spark相關的,spark-2.3.1-bin-hadoop2.7改成spark-3.0.0-preview2-bin-hadoop3.2)
export SPARK_LOCAL_IP=Desktop(從機則要改成自己的ip)
?
其他地方不用修改,可以順利跑通spark standalone模式,基本上spark-2.3.1-bin-hadoop2.7的環境配置可以直接套用于spark-3.0.0-preview2-bin-hadoop3.2
------------spark on yarn ---------------------------
Hadoop2.x中是slaves
Hadoop3.x中是workers(把slaves重命名拿來用即可)
順帶一提,spark3.x中的slaves依然不變,不需要改成workers
hadoop2.x-3.x的端口改變[1]
Namenode ports: 50470 --> 9871, 50070 --> 9870, 8020 --> 9820 Secondary NN ports: 50091 --> 9869, 50090 --> 9868 Datanode ports: 50020 --> 9867, 50010 --> 9866, 50475 --> 9865, 50075 --> 9864上面的端口查了一遍,都不需要在配置文件中特意去修改,默認設定的。
集群的web ui還會提示Upgrade in progress. Not yet finalized.
解決方案:
hdfs dfsadmin -finalizeUpgrade
如果手動刪除了hadoop_tmp中的一些緩存文件,那么需要確保急群中每個節點(包括master)都有這個文件夾:
/home/appleyuchi/bigdata/hadoop_tmp/nm-local-dir/filecache
上述配置可以確保spark on yarn,spark standalone跑通。
----------------------------------------------
Reference:
[1]http://localhost:50070 does not work HADOOP - Stack Overflow
總結
以上是生活随笔為你收集整理的spark和hadoop升级记录(持续更新中)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: failed to launch: ni
- 下一篇: 怪物猎人世界伽马套装怎么做 如何评价韩剧