浪潮POWER 9:英特尔的挑战者
機器之心原創
作者:太浪
IBM 的 POWER 與 Intel Xeon、AMD EPYC 是目前服務器市場上的三種主要處理器類型。
英特爾在推出至強處理器,進入服務器市場后,依靠其在桌面電腦上建立起來的生態平臺和對技術的持續改進,在成本和性能上實現了對 RISC 芯片的超越,幾乎壟斷了數據中心 CPU 市場。
然而,到了人工智能時代,英特爾開始遭遇挑戰。
單純以 CPU 為核心的數據中心部署已經不能很好地滿足并行靈活計算、多變環境的計算需求。
2013 年,IBM 與 Google、英偉達等共同創立 OpenPOWER 聯盟,通過聯盟及生態的模式促進 POWER IP 的使用和相關技術開發。四年來,OpenPOWER 不斷發展壯大,騰訊、阿里、中移動、中石油等越來越多的中國核心企業也開始加入 OpenPOWER 聯盟。
去年 12 月,IBM 發布了最新設計的 POWER9 處理器。POWER9 處理器在新技術上采用了 PCIe4.0、CAPI、NVLink、高主頻、更極限的芯片設計。在系統級也采用了面向市場需求的高可用設計,40 層主板的設計,更高效率的散熱技術,通過把這些先進技術進行整合,從而給高端客戶和行業客戶提供了更加差異化的選擇。
POWER9 處理器
在縱向擴展(Scale-up)平臺、關鍵應用事務處理云化的過程中,能夠提供更高性能、更可靠、更少安全問題的虛擬機。在橫向擴展(Scale-Out)領域提供的計算平臺面向異構計算,有著更高內存帶寬、更多互聯等技術特點,使得 POWER 平臺在計算層面的競爭上有一定的技術優勢。
有觀點認為,POWER 9 將會是目前最有機會挑戰英特爾的產品。
浪潮商用成立,負責 POWER 服務器業務
去年 9 月,浪潮信息與 IBM 合資成立了浪潮商用機器有限公司(IPS),IBM 將在中國大陸的 POWER 服務器業務完全交由浪潮商用運營。2018 年 5 月初,浪潮商用機器正式運營。
9 月,浪潮商用機器宣布搭載全新 POWER9 處理器的 FP5295G2 服務器正式全面上市。該款服務器搭載 NVIDIA Tesla V100 GPU,嵌入 PCIe 4.0、NVIDIA NVLink 和 OpenCAPI,采用 POWER AI,被稱為「首個真正意義上基于 POWER9 芯片專為 AI 而生的基礎架構平臺」。
10 月,浪潮商用機器正式推出基于 POWER9 處理器的全線新產品及解決方案。
浪潮商用機器發布 POWER9 全線新品
整個產品線涵蓋了面向縱向擴展(Scale-up)的系列產品,主要是 K1 Power E980、K1 Power E950 這 2 款企業級服務器搭載全新 Power9 芯片,將以高性能、高穩定性與卓越的定制服務為企業關鍵應用搭建核心承載平臺;以及 K1 Power S914、K1 Power S922、K1 Power S924、K1 Power L922、FP5280G2、FP5290G2、FP5295G2 等 7 款橫向擴展(Scale-Out)服務器,面向企業多樣的數據密集型業務需求,提供針對數據和認知的基礎架構。
「作為 POWER 平臺的服務器供應商,如何提供最好的算力是我們的分內職責。」浪潮商用機器有限公司 POWER 服務器產品經理張鋒表示。
浪潮商用機器有限公司 POWER 服務器產品經理張鋒
他介紹,POWER 服務器以及 POWER 處理器芯片在技術上一直是非常領先的,達到了「教科書級別」,POWER 9 依然保持了技術領先性:
「我們采用 14nm 的工藝生產 CPU,我們整個 CPU 里只有 70 層的芯片結構,單處理器能夠最高達到 22 核,單處理器最高能到 3.8GHz,它還分大核小核,大核支持單核八線程,小核支持單核四線程,這些單核線程都遠遠高過 x86 的單核兩線程。POWER 有更多的 L3 緩存 cache。更多的 cache 能夠帶來更好的指令的 miss,提高它的命中率、提高它性能的 performance。POWER 有 110M 的緩存,而 x86 平臺只有 38.5M。」
「POWER 9 是最好的 AI 平臺。」浪潮商用機器有限公司解決方案部總經理吳楠曾表示,「我們最為領先的微主機架構帶來了四倍于差不多平臺的線程數,以及高達 230G 的一個穩定的內存帶寬。綜合起來,POWER9 的計算能力能夠達到 x86 最高端處理器的兩倍以上。」
在張鋒看來,一個產品要想在市場上獲得成功,除了技術優勢,還要有生態優勢。
他說,不可否認,x86 最近幾年在生態合作上取得了非常大的成功,很多的數據中心里都采用 x86 的平臺。
但近幾年,POWER 也在不斷地遷移和變革生態環境。「甚至,面向 AI 領域、AI 時代、大數據時代轉型,POWER 會比 x86 更加開放、更加積極」。
POWER 建立了 OpenPOWER 基金會,讓客戶(如 Google)、合作伙伴(如 NVIDIA、浪潮)統統加入,以完善整個生態系統。在開源軟件上,OpenPOWER 基金會也做出了自己的努力:目前現在最熱門的 Hapoop、Spark 平臺都有 POWER 平臺的架構;現在最流行的 Coffe、TensorFlow 計算框架也有 POWER 平臺的框架。浪潮還和中國科學院成立共同的實驗室,創辦浪潮商用機器。
他說,這些舉措都是在培養、完善 POWER 在云、在 AI 時代的生態環境。
張鋒還表示,「POWER AI 的一些平臺可以直接利用我們的開源軟件,也就意味著,POWER 是一個非常開放的生態架構。我們希望,一個非常開放的架構能夠讓我們的客戶、ISV、云服務商充分享受到開源生態環境以及 OpenPOWER 基金會這樣一個合作生態組織給大家帶來的便利性,讓我們 POWER 在生態領域有更好的融合。」
人工智能時代給算力提出了新需求,浪潮商用機器如何應對?
人工智能時代給浪潮商用機器帶來的,除了機遇,也有挑戰。
目前,企業 AI 化的需求不斷加深,需要有非常強大的計算平臺來有力支撐線上推理和線下訓練。這對數據中心的部署提出了更高的需求,包括兼容性完備的 AI 架構、優化的 AI 計算平臺以及更加高效的計算架構。
要獲得一份調教好的 AI 計算結果,涉及到數據預處理、模型訓練、識別推理等階段。數據預處理,對 I/O 接口要求較高;模型訓練階段,并行計算量很大,且通信也相對密集;推理識別階段,則需要較高的吞吐處理能力和對單個樣本低延時的響應。
在張鋒看來,目前,算力還存在三個短板:第一個是 CPU 取數的速度,這是打破數據存儲墻的需求;第二個是 CPU 拿到的數據怎么和 GPU 交換,GPU 處理完了以后怎么分發給其他的 GPU 進行交換;第三個是怎么在一個短短的、有限的空間里提升算力。
浪潮商用機器的應對之策是,確立了三個發展方向:第一,在單位空間內提升計算密度;第二,通過計算的可伸縮性,為不同的平臺(訓練/推理平臺)提供算力;第三,通過體系結構的變更,讓客戶體會到更先進的、計算架構層面的不同。
今年 9 月,浪潮商用機器推出 FP5295 服務器,張鋒稱之為「面向企業人工智能最佳的一款平臺」。
浪潮 POWER FP5295G2 服務器
他總結了這款服務器的三個優勢:
一、架構的競爭是首要的競爭,架構的領先將會帶來極大的計算力優勢。這款服務器采用了 NVLink 全互聯架構,能夠讓 CPU 和 CPU、CPU 和 GPU、GPU 和 GPU 之間實現內存地址一致性,「也就是首次把 CPU 和 GPU 放在同等的算力地位上」。整個服務器的內存空間地址為全體計算單元所共享。
「這能夠讓我們整個平臺的算力得到非常大的提升,同時讓我們的用戶在編程模型上得到極大的釋放。這是浪潮商用服務器的 POWER 服務器在平臺架構上相較于 x86 最顯著的優勢。」
二、這款平臺是業界最先進的 CPU 和業界最強悍的 GPU 之間的一個聯合實踐。FT5295G 服務器采用了 POWER9 處理器,它最大的特點是支持 NVLink 300G/秒的全互聯速度,這能夠讓我們的 GPU 和 CPU 發揮最大的計算效率。它提供單機 4 到 6 個 V100 GPU,支持最新的 32G 緩存的 GPU,單 GPU 的浮點運算能力能達到 15.7 TFLOPS,整機能夠提供 500 萬的 Tensor 性能,這樣能夠讓訓練平臺得到充分的計算力的保障。
三、是企業就緒特性。在 POWER 服務器平臺上,利用 POWER AI 架構,企業能夠輕松地面向 AI 進行轉型。因為 POWER AI 的架構里集成了所有業界最先進、最熱門的 AI 計算框架,包括 Caffe、TensorFlow 等。企業可以根據自身需求在一個節點上逐漸地把自己的 AI 平臺框架搭建起來,并無縫地遷移到成千上百個計算節點上去。
「我們相信,這一款平臺能夠讓企業、讓我們的 HPC 用戶得到更多的性能體驗。」
多元化的合作模式
今年 9 月份,第四范式攜手浪潮商用機器在京聯合發布了 AI 軟硬件一體機產品「Prophet AIO」。同時,雙方正式宣布成立 AI 一體機聯合實驗室,以加速 AI 在用戶需求及產品研發的落地進程。
針對雙方的合作,第四范式聯合創始人兼首席架構師胡時偉如是說:「我們發現,浪潮商用在硬件方面的追求和我們在 AI 軟件平臺方面的追求驚人的一致,我們都預期給客戶提供最先進、并且能夠最好地支撐新技術發展的解決方案。
我們在 POWER 身上發現了目前可能地球上最大的總線帶寬和最先進的技術。并且,我們需要的是,在一個平臺橫向拓展、支持盡可能多的應用,采用統一的模式去運行,而 POWER 在虛擬化和可擴展方面也走在了所有技術的前列。所以大家可以說是一拍即合。」
張鋒表示:互聯網以及互聯網的新興企業的成長性是非常好的。過去十年,浪潮和互聯網公司共同成長,總結出了一套 JDM 模式(Joint Design Manufacture,聯合開發定制模式)。「互聯網客戶非常了解自己的需求,而浪潮商用機器公司能夠把互聯網企業的這些需求、平臺構想迅速地落地,實現針對某一種應用場景的最佳的計算平臺。」
在 AI 的大潮下,他們堅信,互聯網以及 AI 公司有自己獨特的、為客戶提供價值的平臺和路徑。「比如第四范式的先知平臺,我們可以為它去定制更好的、基于金融反詐騙的平臺系統、學習訓練系統或者推理系統。」
此外,他們也在和銀行、電信等領域的客戶做聯合定制的開發。
張鋒介紹,浪潮正和位于上海的一家金融機構做云平臺的整合,向他們提供更好的整機柜型的服務器。也在和電信行業做一些基于 NFE 平臺的定制和開發。
「浪潮商用機器有限公司會利用 JDM 模式與我們的客戶強強配合,讓我們的客戶、終端用戶體驗到浪潮在平臺上、POWER 的先進性,以及在平臺上迅速地轉化成生產力。」張鋒說。
還有值得一提的點是,浪潮商業機器的服務器生產已經完全實現了本地化生產。
吳楠曾在一個會議上介紹,他們在濟南開辟了一條年產 100 萬臺服務器的生產線,專供 POWER 服務器的生產。
「這個服務器的生產線是我們最先進的、無人的、全自動的生產線,其中有 370 多個質量檢測點,生產的質量和我們以往交付給客戶的產品質量是保持如一的。」
所有設備的交期從原來 40 多天縮短到不到一周,還能給客戶按需定制產品,「客戶的一些獨特的需求都可以在我們生產線上得到實現。」
除了本地化生產的落成,也有了本地化服務。
吳楠表示,「我們服務的本地化也會帶來服務質量和服務效率的提升。我們的備品備件都會實現本地化的交付,提高維修和響應的速度。」
這就是浪潮商用機器目前的優勢。
總結
以上是生活随笔為你收集整理的浪潮POWER 9:英特尔的挑战者的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 二次冲刺站立会议六
- 下一篇: 斯坦福统计学习理论笔记:Percy Li