英伟达宣布全面支持ARM高性能计算,三周打造全球排名第22超算
英偉達宣布全面支持ARM高性能計算,三周打造全球排名第22超算
ARM 架構服務器正在逐漸升溫,這也少不了 AI 芯片巨頭英偉達的參與。本周一,英偉達在德國宣布了與 ARM 全面合作的新計劃:兩家公司將合力推動構建超級計算機。而加速計算平臺 CUDA 也將支持 ARM 架構,這一行動為深度學習、高性能計算打開了一條全新道路。
英偉達將于今年底前向 ARM 生態系統提供全堆棧的 AI 和 HPC 軟件,這意味著它將為 ARM 的 600 多個 HPC 應用程序和所有 AI 框架提供加速,其中包括了所有 NVIDIA CUDA-X AI 和 HPC 庫、GPU 加速的 AI 框架和軟件開發工具,如支持 OpenACC 的 PGI 編譯器和性能分析器。
相應支持上線之后,英偉達將為市面上所有主要 CPU 架構提供加速:覆蓋 x86、POWER 和 ARM。
另一方面,英偉達也為自己在超算領域的實力秀了秀肌肉:宣布僅用三周時間就完成了一臺全球排名達 22 位的超級計算機「DGX SuperPOD」,而且如果有需求,任何客戶都可以復制這樣的部署速度。
全力支持 ARM 架構
眾所周知,ARM 目前是全球智能設備第一大主流芯片架構提供商,全球超過 90% 的智能設備采用了 ARM 的芯片架構,包括手機、平板、手表、電視、無人機等等。不過最近 ARM 正計劃將自身架構的芯片用于數據中心和超級計算機上——而在高性能計算(HPC)領域,英特爾的芯片一直占據主導地位。
當然,ARM 與英特爾、IBM 也有所不同,前者只提供芯片設計的許可,用戶可以在這一基礎上自行制造所需的芯片。
「這種開放性……讓 ARM 架構變得非常具有吸引力,」英偉達加速部門副總裁 Ian Buck 表示。「我們向 ARM 伸出橄欖枝的原因,是它能夠為超級計算機提供開放的架構?!?/p>
在今年 3 月的 GTC 大會上,黃仁勛就曾表示英偉達正在和 ARM 共同開發人工智能專用芯片。而在 6 月 17 日德國法蘭克福的國際超算大會上,英偉達終于宣布了全面支持 ARM CPU 的計劃。
Ian Buck 表示,使用 ARM 制造超級計算機將會是一個「重要舉措」。目前,來自歐洲和日本的研究人員已開始著手使用 ARM 技術開發超級計算機芯片。在英特爾 x86、IBM Power 之后,基于 ARM 架構的服務器正成為目前火熱的方向。
去年 11 月,亞馬遜率先發布了基于 ARM 架構的服務器芯片,并開始提供相應的云服務;2019 年 1 月,華為推出了基于 ARM 架構的服務器芯片鯤鵬 920,以及「TaiShan」服務器,引發了人們的廣泛關注。通過使用 ARM 架構,各家公司或許可以基于自身業務的特性,打造更高效率的計算設備。
英偉達創始人、首席執行官黃仁勛對此表示:「超級計算機是促進科學發現的重要工具,建立百萬兆級超級計算將能夠極大地擴展人類知識的邊界。隨著傳統計算規模擴展步伐的停止,功率也將成為所有超級計算機的限制因素。NVIDIA CUDA 加速的計算和 ARM 的高能效 CPU 架構的相結合,將助力 HPC 社區實現大幅提升,以達到百萬兆級。」
「ARM 正在與生態系統合作,為基于 ARM 的 SoC 帶來前所未有的計算性能提升,」ARM 首席執行官 Simon Segars 表示,「HPC 社區已經部署了 ARM 技術,以應對全球最復雜的研究挑戰。通過與英偉達合作,將 CUDA 加速引入 ARM 架構,這一舉措對于 HPC 社區來說,可謂是一大重要里程碑?!?/p>
根據 6 月 17 日發布的 Green500 排行榜,在全球最節能的 25 款超級計算機中,有 22 款都由英偉達幫助打造。
英偉達稱,其中的關鍵因素在于:采用 NVIDIA GPU 的超級計算機能夠將繁重的處理作業轉化為更為節能的并行處理 CUDA 任務之上;英偉達與 Mellanox 合作優化整體超級計算集群的處理;以及英偉達推出的 SXM 3D 封裝,以及可實現極密集型擴展節點的 NVIDIA NVLink 互連技術。
英偉達對基于 ARM 的 HPC 系統的支持建立在雙方超過 10 年的合作基礎之上。此前,英偉達的幾款用于便攜式游戲、自動駕駛汽車、機器人和嵌入式 AI 計算的系統級芯片產品都采用了 ARM 處理器。
超算中心、系統提供商以及系統級芯片制造商等在內的眾多 HPC 行業及 ARM 生態系統中的全球領先企業,都表達了對于這些合作的支持。
三周打造超級計算機 DGX SuperPOD
英偉達昨天還公布了全球速度排名第 22 位的超級計算機「DGX SuperPOD」,為人工智能和高性能計算提供了一個全新范例。DGX SuperPOD 可以為滿足企業的自動駕駛汽車部署項目提供所需的算力基礎。
這臺超級計算機系統的搭建,僅用時 3 個星期,其采用了 96 臺 NVIDIA DGX-2H「超級計算機」與 Mellanox 互聯技術。其處理能力高達 9.4 petaflops,能夠用于訓練安全自動駕駛汽車所需要的海量深度神經網絡。
更吸引人的是,基于 DGX SuperPOD 的設計,客戶可通過任意 DGX-2 合作伙伴購買整套超級計算機系統,或者其中的一部分。
自動駕駛汽車的人工智能訓練可以說得上是密集型計算密的終極挑戰。
一臺數據收集車輛每小時能生成 1 TB 數據。整個車隊經過數年行駛后,其數據量將會很快達到幾 PB(千兆兆字節)的量級。這些數據會被用來根據道路規則對算法進行訓練,并且還會被用來找出車輛內運行的深度神經網絡的潛在故障,然后在連續的循環中再次訓練。
NVIDIA 人工智能基礎設施副總裁 Clement Farabet 表示:「若要保持人工智能領先地位,則需要在計算基礎設施方面保持領先。很少有像訓練自動駕駛汽車這樣對人工智能又如此之高的需求,其需要對神經網絡進行數萬次的反復訓練,以滿足極高的精度需求。對于如此大規模處理能力而言,DGX SuperPOD 無可替代?!?/p>
DGX SuperPOD 內含 1,536 顆內含 Tensor Core 的 Tesla V100 GPU,由 NVIDIA NVSwitch 及 Mellanox 網絡結構相聯接,為其提供強力支持,使其能夠以同等大小的超級計算機所無可匹敵的性能處理數據。
該套系統能夠不間斷運行,優化自動駕駛軟件,并以前所未有的周轉時間(turnaround time)反復訓練神經網絡。
例如,DGX SuperPOD 軟硬件平臺能夠在不到 2 分鐘的時間之內完成 ResNet-50 訓練。在 2015 年,這種深度學習模型推出的時候,采用當時最快的單塊 NVIDIA K80 GPU 需要 25 天才能完成訓練任務。而 DGX SuperPOD 生成結果的速度較之加快了 18,000 倍。
英偉達稱,其他具備同等性能的 TOP500 超級計算機系統都由數千臺服務器構建而成,而 DGX SuperPOD 占地面積更少,其體積比這些同等系統小 400 倍左右。
英偉達發布 SuperPOD 并不僅僅是為了構建一臺超級計算機,更希望以此為更多潛在客戶提供一個范例:DGX SuperPOD 不僅能夠快速運行深度學習模型,得益于其模塊化和企業級設計,該系統還能夠以極快的速度完成部署。在同等規模系統通常需要 6-9 個月完成部署的情況下,DGX SuperPOD 參考已驗證范例僅需 3 個星期即可部署完畢。
通過構建像 DGX SuperPOD 這樣的超級計算機,英偉達已經掌握了如何設計面向大規模人工智能任務的系統。這足以讓高性能計算跨出學術界,為那些想要使用高性能計算加快其各種計劃的交通運輸公司及其他行業所用。
未來,英偉達還將與 ARM 共同打造適用于 IoT 設備的 AI 芯片專用 IP,并使這款機器學習 IP 集成到 Arm 的 Project Trillium 平臺上,以實現端側機器學習。
參考內容:
https://blogs.nvidia.com/blog/2019/06/17/dgx-superpod-top500-autonomous-vehicles/
https://www.reuters.com/article/us-nvidia-arm-inc/nvidia-to-work-with-arm-chips-deepening-push-into-supercomputers-idUSKCN1TI0M9
總結
以上是生活随笔為你收集整理的英伟达宣布全面支持ARM高性能计算,三周打造全球排名第22超算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈List保存的数据是引用数据类型的地
- 下一篇: FACEBOOK’S CALIBRA