【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从
簡介:Hadoop社區版CDH/HDP已經不再更新,也將終止服務。后續的平臺路線圖怎么規劃?Cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增強?如何平滑的進行遷移?本文結合CDH/HDP平臺現狀,詳細介紹了CDP以及如何到達CDP。
本期導讀 :【阿里云 CDP 公開課】第二講
主題:CDH/HDP 何去何從
講師:王雪峰,Cloudera 生態資深解決方案工程師
內容框架:
- CDH/HDP 平臺現狀
- 為什么選擇 CDP
- 怎么到達 CDP
- CDP 測試驗證和使用
直播回放鏈接:(第2講)
阿里云CDP公開課第2講-技術公開課-阿里云開發者社區
一、CDH/HDP 平臺現狀
CDH/HDP 產品公司合并
CDH/HDP 這兩個產品比他們的公司在市場上更加廣為流傳。大部分用戶可能只知道 CDH 或者 HDP,而不知道 Cloudera 或者 Hortonworks,實際上 CDH 是 Cloudera 公司的代表產品,HDP 是 Hortonworks 公司的代表產品。兩家公司都是圍繞著大數據平臺去做發行版,他們在2019年1月進行了合并,形成了新的 Cloudera 公司。
合并之后,兩家公司的能力也做了一些整合。首先兩家公司的平臺能力都是圍繞著中間的數據工程和數據倉庫的,他們都具有大數據平臺的存儲和計算能力。如上圖,綠色的 IoT 互聯網是 Hortonworks 另外一款產品提供的能力,主要做實時數據的采集和處理分析。藍色的是 Cloudera 的另一個產品 CDSW 提供的,來幫助加速機器學習、數據科學的一些應用。這幾款產品都可以部署在企業的客戶邊緣計算、私有云、公有云和混合云上。
兩家公司在合并之后,首先把這4個產品進行打通,客戶可以根據自己的生態選擇從邊緣計算到人工智能的處理流程。兩家公司合并完成之后,緊接著就進行了產品整合,為什么?
在兩家公司合并前,Cloudera 當時有兩個主推的大數據平臺產品:CDH5 和 CDH6。Hortonworks 有兩個主推的平臺產品:HDP2 和 HDP3。這兩家公司的產品分別對應 Hadoop2 和 Hadoop3 的發行版,合并成新的 Cloudera 之后,一家公司維護4個同質性的平臺產品負荷是比較重的,再加上外部技術的發展變化(云計算、計算和存儲分離、容器和K8S等),Cloudera 最終選擇進行平臺整合,形成新的產品 CDP。
CDH/HDP 的產品生命周期
CDP 的全稱是 Cloudera Data Platform。Cloudera 公司的 CDP 推出之后,首先支持了 CDH5 和 HDP2 兩個平臺的直接升級。隨著技術的發展,今年也支持了 CDH6 和 HDP3 的直接升級。在 CDP 推出之后,HDP 和 CDH 兩個平臺都可以遷移升級到 CDP 平臺上,兩個產品也在逐漸退出市場,產品進入了 EOS 階段,其中 CDH5 和 HDP2 在2020年12月底已經不再進行售后支持,CDH6 和 HDP3 也分別在2021年底和2022年3月結束它的支持生命周期。
兩家公司合并推出 CDP 之后,CDH 和 HDP 產品已經不再增加新的功能,僅是一些維護式的更新,使得已有用戶沒辦法在老的 CDH/HDP 平臺上繼續獲取新的功能和性能提升。
這一張圖是 Cloudera 官網給出的 Cloudera 支持的產品生命周期,主要列出了 CDH 和 HDP。其中 Cloudera Enterprise 對應的是 CDH 企業版。可以看到 Cloudera 最新的產品 CDH6 系列和 HDP3 系列,分別在今年年底和明年3月份全部 EOS。老產品CDH5和HDP2也在2020年12月EoS了,不再進行支持。
Cloudera 產品許可證變化
Cloudera 在兩家公司合并完之后,將產品許可證也做了一些調整,使得它更加類似于成熟的 Red Hat 的開源模型。
首先,所有的產品源都是符合 OSI 批準的許可證,包括 Apache 的開源許可和 AGPL 的許可證。其次,從2019年11月 Cloudera 再發布的所有產品不再提供社區版,只有企業版,用戶需要訂閱才能正常使用 Cloudera 發布的產品。但它還是會提供試用版,60天的試用期,使得用戶可以做功能的驗證和嘗試。
從今年1月份開始,Cloudera 還把以前對外公開的 CDH/HDP 所有版本都拿到了 Paywall,使得用戶都需要訂閱 Cloudera 產品,獲取到對應的授權才能下載。
對大家來說,這聽起來是一個壞消息,其實也不盡然。為什么那?接下來我們講來分析一下國內大數據生態的供應商情況。
國內大數據生態挑戰
大家對 Hadoop 已經比較熟悉了,大家可以到 Hadoop 官網隨便下載和使用,在我們的傳統思維中,門檻很低,基本上是免費。但大家只考慮了軟件獲取成本,而忽略了軟件使用成本和后續的運營成本。
據信通院在2019年6月數據整理,當時國內有39家基于 Hadoop 的平臺供應商,這些供應商里面有70%多是基于 Cloudera 的 CDH 和 HDP 的社區版封裝成產品來提供給用戶的,有24%是基于 Apache 封裝,還有一家自研的產品。大部分供應商基本都是在 CDH/HDP 社區版進一步封裝,同時替換掉 CDH/HDP 的 Logo,就發布出來自己的版本。這種行為對用戶和這些供應商有什么挑戰?Cloudera 的許可證模式變更之后,再把 CDH/HDP 的 logo 替換掉,是商業盜版行為,面臨商業合規的風險。
那么,直接使用Apache的版本進行封裝是否可以?可以,但可能存在如下風險:
風險1,在于國內大部分供應商沒有足夠的 Apache 的 PMC 和 Committer 資源,導致出現問題之后不能夠快速定位問題,只能依靠自己的經驗去猜,或到社區上去獲取對應的支持,這必然沒辦法滿足企業對應用 SLA 的需求。
風險2,這些供應商沒有足夠的 Hadoop 平臺開發的資源,也就沒有足夠的能力和權限進行 Apache 社區的代碼修復。為了維護產品,就會出現產品分支,供應商需要維護多個不同的版本,容易造成維護混亂和功能不一致。使用這樣的產品,使得大部分非互聯網企業需要享受互聯網企業的試錯待遇,而同時又沒有辦法滿足他們的 SLA,導致他們沒有辦法去上A類應用來滿足它的使用需求。
同時隨著國家對安全漏洞的安全要求增強,大部分企業沒有辦法跟蹤和解決 CVE 相關的安全審計,因為這些廠商不了解第三方庫如何引用,不知道下一代產品如何更新。特別重要的是,金融業客戶沒有辦法面對“護網”的工作需求。
我們時不時會接觸到護網行動,在護網行動中會掃描出一大堆安全漏洞。而這些安全漏洞是需要對應廠商來提供解決方案的,不了解CVE的廠家是沒有辦法對此提供支持的。最近爆發的 Log4J 的 CVE-2021-44228 對于這類供應商就是一個巨大的挑戰。
把整個中國大數據生態分析下來,我們會發現,Hadoop 使用的門檻很低,但是我們沒辦法真正把它運用到生產上,因為國內的廠商,沒有辦法去提供足夠的支撐該平臺可以運行在生產上。可是,Hadoop 平臺作為比 RDBMS 更新的一代平臺,能夠解決我們很多問題,這時候我們要怎么辦?是不是就放棄?答案是:否。
我們還有 Global 公司可以來提供支持,例如 Cloudera 就可以提供這種專業的平臺服務支持。Cloudera 的 CDP 里面涉及39+個 Apache 的開源組件,擁有超過30個組件的控制權,使得 Cloudera 可以修改里面的一些安全漏洞 CVE 和 bug,也可以增加新功能和性能增強等等。對于其他組件,也有 PMC 和 Committer 來保證代碼修復的權利。
第二,我們可以決定未來產品發展的路線。我們會根據社區的反饋,和對新產品新功能研究創新,來決定對哪一些組件進行引入,對哪些組件選擇廢棄。
第三,Cloudera 因為有足夠的 PMC 和 Committer,可以自行決定第三方庫的引用和替換,使得用戶可以放心地使用。當然這只是產品平臺的一個能力,只有這些還不夠。
此外,它還有完善的400售后支持體系,Cloudera 在中國有30多人的中文售后支持團隊,可以支持整個中國甚至包括部分東南亞的售后。同時 Cloudera 在全球有10來個售后支持中心可以提供7×24小時售后服務。
對于企業來講,要把關鍵的應用上到生產里,也需要完善的安全解決方案。Cloudera為此提供了業界最完整最成熟的安全解決方案,來幫助用戶滿足安全合規需求。
自研用戶的壓力
大數據平臺除了向第三方廠商購買之外,還可以進行自研。那么自研的成本或者價值估算怎么樣,我們這里用一張圖表來進行說明。
自研的話,需要30到50人來完成整個平臺的構建、組件的升級、安全的實施以及平臺使用的支持。目前國內有這種能力的工程師成本需要人民幣30~50萬元左右/人/年,每年會需要200~400萬美金的人工成本,這對于大部分企業來說還是比較高的。
如果使用 Cloudera 訂閱,費用會是怎么樣?
假設我們使用50個節點的列表價來計算,差不多是一年50萬美元左右。在這每年50萬美元的訂閱費用里面我們能獲取到什么?第一個是產品的使用支持,Cloudera 有龐大的工程師團隊和 Apache 的 PMC、Committer 能夠支持企業產品的創新和更新;同時還有300多個技術支持專家可以提供7×24小時售后支持,有專業的知識庫幫助我們快速解決問題,還提供了知識庫等其他增值服務。這對于大部分廠商來說這是一個成本更低、風險更小的解決方案,同時讓員工主要做業務應用,可以創造更大的業務價值。
二、為什么選擇 CDP
什么是 CDP?
相對于 CDH/HDP,CDP 有什么改進
CDP 是原先兩個最好的企業級數據分析平臺 CDH 和 HDP 融合在一起,同時增加一些新的功能,形成的一個新平臺。這個平臺有40多個組件,是可以提供更多功能的企業級分析平臺。
這個平臺集合了 CDH 和 HDP 的精華來創建,把一些過時的技術淘汰掉,再融合新的技術,把雙方差異性的技術保留下來,同時升級共享一些技術得到最新版本。
整個CDP平臺主要有兩塊功能。
第一塊是通過 Cloudera Manager 負責整個平臺的運營和管理工作,上圖中間這部分是 CDP 的主要功能,是 CDP 平臺具有的功能和能力。最下面支持各種各樣的存儲,HDFS、Ozone、kudu、云對象存儲等。它還有數據移動功能,任務編排和用戶接口的功能、有運營數據庫、數據倉庫的能力,搜索、安全和治理的能力,同時還有數據的加密和密鑰管理的功能。Cloudera 還有的其他應用,比如 CDSW 或 Cloudera Data Flow,也可以被 Cloudera manage 來管理和支持,來滿足企業更廣泛的應用和使用能力。
對于已有的 CDH 用戶,他們會獲得哪些能力?我們從整個大方向來講,它在授權和策略管理上面做得更好,支持行過濾和動態列掩碼,支持 SparkSQL 細粒度的訪問控制,提供跨生態的授權和策略管理。
在數據治理上,它采用了 Atlas,可以更好地管理元數據、數據血緣和監管鏈,同時支持業務數據等等應用。在實時數據上,對 Kafka 做了很多增強,支持連接不同存儲的 Kafka connect,支持 Kafka 集群的管理和數據復制,以及集群的運維。在運營數據庫上支持了完整的 ACID SQL 標準,支持二級索引,支持星型 Schema 等等。
在數據倉庫上,把 Hive 引擎用 Hive-on-Tez 替代來提供更好的ETL性能,同時支持 ACID 事務支持 ANSI 2016 SQL 標準,也做了很多性能的優化。
在存儲上,通過 Ozone 可以提供 HDFS 30倍的擴展性,對 S3 原生遠程支持,同時可以和 Kafka、Nifi 集成。
在安全上,提供了基于 Knox 的網關 SSO,同時支持密鑰管理等等。
對于 HDP用戶來說,也獲取了大量的新功能。包括管理支持了計算和存儲分離的體系架構,支持自動傳輸加密以及針對管理員的細粒度 RBAC。
- 搜索上,提供了非結構化數據的搜索,比如文本圖像等等。
- 數據倉庫上,引入了 Impala 來提供交互式 BI 查詢的使用場景。
- 編輯控制器上,通過內置 SQL 編輯器來自動完成智能查詢使用。
- 存儲上,引入了 Kudu 和 Ozone,Kudu 可以支持快速變化的數據的快速更新,以及更好的交互式查詢。
- 加密上,引入了自動傳輸加密以及 Ranger KMS 等能力。
前面簡單說了一下 CDP 平臺相對于 CDH/HDP 平臺增加的功能, CDP 平臺更多的價值,可以用這一張圖表來表示。
它提供了更高的分析性能,相對于以前的 CDH/HDP 平臺產品,它通過集成最新版的 Impala、Hive 和 Spark,可以帶給用戶兩倍的分析性能提升。同時通過 Cloudera Manager 的集群管理,來提供增強的集群管理和資源調度,減少了20%的資源使用。
通過在 CDP 平臺引入 Ozone 對象存儲和 HDFS 糾刪碼,可以提供5倍的存儲密度,使得用戶的存儲更具有成本效益。對于安全合規比較敏感的用戶,CDP 把已知的 CVE 都解決了。在最新的 CDP7.1.7里,有個用戶前一段時間剛進行了安全漏洞的掃描,沒有在 CDP 平臺上發現任何 CVE。發現的CVE基本上都是在上下游上面,該產品更符合用戶對安全合規的訴求。
最后一點是數據的安全治理,在 CDP 中通過引入新的 SDX 控制,包括默認拒絕、最低權限,策略標簽、可擴展審計、一致執行等等,使得用戶減少50%的工作量,來緩解監管合規性,大幅度降低任務、重載。
Cloudera 提供的安全解決方案是業界最完整最成熟的,它主要由4部分組成。第一塊是用戶的訪問邊界,通過認證、網絡隔離、用戶組映射等技術來決定用戶是否能夠訪問平臺,進到集群訪問之后的用戶可以根據他擁有的權限去訪問數據和應用,這主要是涉及到權限和授權相關的技術。當然,企業里面的數據要有可視性和可見性,需要知道數據從哪里來到哪里去,需要知道誰訪問了什么,這就是審計和血緣相關的概念。還有一塊就是數據的保護,防止不該訪問的人訪問,這里對應的是數據加密、數據標簽、數據掩碼等技術概念。
通過這樣4個模塊,Cloudera 提供了業界最完整最成熟的安全解決方案,使得企業可以更合規地去使用數據。
為什么選擇基于阿里云部署的 CDP
今年 Cloudera 已經和阿里云兩家公司強強合作,推出了基于阿里云部署的 CDP 平臺。這個平臺除了具有 CDP 平臺的所有優勢之外,還增加了阿里云公有云相關的一些優勢。
首先是產品核心方面。第一,阿里云提供的 CDP 版本,是包含完整的CDP能力的 。第二,它基于多種規格,使得用戶可以選擇不同的套餐去構建使用。第三,Cloudera CDP 平臺和阿里云平臺產品集成互通,用戶可以在阿里云上直接一起使用阿里云其他的產品,同時它還提供了開箱即用的安全平臺,可以降低它的使用復雜度,也降低了運維成本。
其次是產品引擎與服務方面。第一,百分百兼容開源的 Hadoop,同時又通過兩家公司的聯合調優,使性能最優。第二,它能提供給客戶7×24小時的專家支持服務和專業保障,使用戶可以輕松地對已有的 CDH/HDP 這些平臺來進行遷移,進行版本升級,參數調優等工作。
基于阿里云部署的 CDP 平臺的整體架構是這樣的——底層平臺會使用阿里云的云盤、基于大數據的本地存儲、數據湖等數據存儲方式,計算層通過阿里云的 ECS 來擴展。在這之上,它通過 SDX 來管理所有數據的狀態,通過 Cloudera Manager 來管理整個平臺,在上面提供基于數倉、數據湖、數據工程、流計算、運營數據庫等業務場景的能力。
客戶會問,我為什么要選擇基于阿里云部署的 CDP平臺?從成本上來講,用戶是有一定的成本支出,20%的成本增加帶來下列收益:
第一,用戶可以使用最新版的CDP平臺,這個平臺可以提供給用戶更多的開源組件,更高的版本,更穩定可靠的軟件版本支持,同時覆蓋客戶從邊緣計算到人工智能的數據分析的應用場景。
第二,這個平臺可以提供給用戶企業級的服務支持,包括大數據專家服務,開箱即用的使用來降低運維成本。
第三,這個平臺可以提供更完整更成熟的安全治理管理方案,滿足企業的安全合規訴求。
同時,穩定可靠的產品,還大大降低了運維的復雜度和成本,使得企業可以聚焦到業務應用,增強企業的業務領先性。
三、怎樣到達 CDP
到達 CDP 有哪些路徑
到達CDP主要有兩種方式,一種是原地升級,一種是遷移升級。?
如何選擇使用自己的升級路徑
原地升級就是在原有的集群上直接做升級,優點是不需要額外的硬件資源,缺點是升級過程中停機時間可能會比較長,有時候會影響客戶的 SLA。 第二原地升級所有的應用都要去驗證,相對來講比較復雜。哪一類客戶比較適合這種方式呢?一是沒有富余的主機資源,二是平臺上面的租戶比較少,可以接受較長時間的服務停機時間。
遷移升級是新搭建一個集群,然后把業務的老集群數據和應用分別拷貝到新集群上,最后把應用切換到新集群上。遷移升級有什么優點?第一是不會產生數據丟失,不會影響已有的業務,它的服務停機時間較短,只會在兩者最終交接的瞬間發生停機,可能導致數據的不一致。缺點是它需要額外的硬件資源,同時需要遷移數據,整體的遷移升級時間周期會比較長。
遷移升級比較適合的用戶,一是有豐富富余主機資源,例如阿里云上的用戶,通過這些主機資源,可以很容易地去做中間的集群。二是租戶多,時間難以協調一致的情況。對于云上的用戶或者線下用戶計劃向云上轉換的用戶也都比較合適這種用戶。
CDH/HDP 目前的版本支持了 CDH 和 HDP 所有版本,他們可以原地升級和遷移升級到CDP平臺。如果客戶不愿意選擇最新版本,就需要看一下對應版本的支持情況。
升級有哪些資源支持
現在在阿里云上推出來的是7.1.7版本,絕大部分用戶都可以來遷移和本地升級。那么升級的主要任務是什么?
先說一下原地升級。首先它是集群的本質升級,會把已有的數據和 Schema 一次性升級到新的平臺 CDP 上。第二平臺上的應用腳本要做一些代碼改造,需要在新平臺上驗證使用確保沒問題,然后一起做代碼的改造替換,在新平臺上運行。原地升級支持 CDH5.1.3以上和 HDP2.6.5 以上的版本。
遷移升級和本地升級一樣,也涉及到歷史數據、Schema、批量腳本和外部應用四部分。但遷移升級的時候建議按照一個一個應用的方式來分批次進行遷移,而不需要一次性把所有東西都改造完然后一次性都遷移到新平臺上,可以按照應用分批進行。同時遷移升級的時候會把數據對應的腳本和外部應用做改造,使得它能夠在新平臺上使用。
Cloudera 在官網提供了很多升級指南,在一些公眾號宣傳材料里也有升級材料。它里面有安全安裝升級指南、升級的 companion、在線升級指南、遷移工作負載指南等等,同時用戶還可以和 Cloudera 的咨詢顧問來一起構建升級的規劃和實施。
四、基于阿里云部署的 CDP 的測試和使用
如何申請基于阿里云部署的 CDP 測試
在阿里云的官網的路徑為:產品->大數據->相關解決方案和生態產品->Cloudera企業數據云,這是Cloudera和阿里云合作平臺的入口。
阿里云上的CDP是基于阿里云部署的CDP平臺的半托管產品,用戶可以在上面管理整個平臺運用。
阿里云的 CDP 產品還能提供免費測試和試用。
鏈接如下:阿里云CDP產品免費測試申請
點擊之后會跳轉到產品免費試用申請,填寫對應的信息之后,阿里云的同事會來負責后續的申請審批,審批通過之后就可以獲取代金券來進行 CDP產品的試用。
基于阿里云部署的 CDP 開通流程
下面介紹一下阿里云CDP的使用方法。首先打開阿里云官網,按照以下路徑:產品-大數據-相關解決方案和生態產品-cloudera企業數據云,點擊之后會跳轉到Cloudera產品頁,這里有產品的試用說明開通。后面需要填寫對應的信息來獲得試用產品資格,完成之后就可以開通使用它。
測試開通流程演示
在開通試用時,每個企業有一次試用的機會,可以在試用之后再選擇購買。購買支付完成以后,就能看到產品的管理頁,可以在已購買的產品服務里面找到我們剛購買的產品。
管理頁每個產品的右邊有一個免登按鈕,點擊免登就能進入 Cloudera 心選市場管理器,然后進入集群管理來配置整個集群。在集群配置里面,我們可以通過輸入一些信息來完成整個集群的環境搭建。例如集群的一些實例名稱,集群所在的區域,目前支持了華東、上海、北京、深圳4個區域。
然后配置整個集群的網絡環境,包括 VPC、安全組等信息。用戶可以選擇集成高安全和非安全的集群,根據自己的需求來選擇。
接下來部署 Cloudera Manager 管理員的登錄賬戶信息,輸入對應的賬戶和密碼登錄。然后選擇同意產品服務協議,確認創建集群。接下來系統會創建一個硬件的訂單,完成支付以后可以看到里面有5臺機器,3臺數據節點,1臺管理節點,1臺工具節點。刷新一下就可以看到整個集群的進程,它會自動部署,整個部署大概需要30分鐘。大家在部署過程中可以通過查看詳情來獲取進展,也可以看到整個集群的信息和主機列表等內容。
部署完成以后,登錄控制臺來進行配置。將7180添加到安全組里面,也可以參考安全組的配置文檔來配置。完成之后,點擊確認,就可以通過端口登錄。
但此時用戶還沒有配置當前IP的訪問,所以用戶需要去做一點修改或新加一個安全規則,將7180賦給當前的IP段。我們這里賦給了0.0.0.0,使得所有用戶都可以訪問。最后刷新7180訪問入口,輸入 admin 用戶和密碼來使用集群。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。?
總結
以上是生活随笔為你收集整理的【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文总结Java\JDK 17发布的新特
- 下一篇: Java对象转换方案分析与mapstru