當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

各种加速卡异构计算

發(fā)布時(shí)間：2024/1/8 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了各种加速卡异构计算小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

異構(gòu)計(jì)算：

異構(gòu)計(jì)算要使用不同類型的處理器來處理不同類型的計(jì)算任務(wù)。常見的計(jì)算單元包括CPU、GPGPU、GPDSP、ASIC、FPGA和其它類型的眾核處理器等。

目前有很多加速卡或者協(xié)處理器，用于增加系統(tǒng)性能，常見的有：

GPGPU 是最常見的加速卡，通過PCI-e相連。 GPU 最早是用于圖形處理卡，即顯卡，后來慢慢發(fā)展成為加速卡。2010年，天河一號(hào)使用CPU+GPU異構(gòu)結(jié)構(gòu)獲得TOP500第一。當(dāng)時(shí)，天河一號(hào)采用的是GPU是AMD的。天河一號(hào)A采用的是Nvidia的GPU卡。

Xeon Phi 是intel生產(chǎn)的協(xié)處理器，通過PCI-e 相連。目的是于GPU抗衡，因?yàn)镮ntel顯卡不是優(yōu)勢。天河二號(hào)采用的便是 Xeon E5 + Xeon Phi。

FPGA 加速卡在2014年也提出了。在SC14， Xilinux便展示了Alpha Data 公司生產(chǎn)的 ADM-PCIE-7V3 FPGA加速板，通過PCIe和host cpu相連，加載Virtex 7系列。FPGA最初的應(yīng)用是為了驗(yàn)證邏輯設(shè)計(jì)，即作為開發(fā)板，即用于驗(yàn)證邏輯設(shè)計(jì)，然后將該設(shè)計(jì)流片，生成ASIC芯片?，F(xiàn)在，FPGA已經(jīng)作為加速卡（即插即用）！！

GPDSP ?因?yàn)槊绹鳬ntel禁售Xeon Phi，因此國防科大提出GPDSP作為協(xié)處理器，目前還在醞釀中。

下面是轉(zhuǎn)載：

****************************************************************************************************

異構(gòu)計(jì)算是一種分布式計(jì)算，它或是用能同時(shí)支持SIMD方式和MIMD方式的單個(gè)獨(dú)立計(jì)算機(jī)，或是用由高速網(wǎng)絡(luò)互連的一組獨(dú)立計(jì)算機(jī)來完成計(jì)算任務(wù)。采用異構(gòu)計(jì)算架構(gòu)的超算會(huì)使用至少2種類型的處理器，其中異構(gòu)計(jì)算架構(gòu)中通用CPU負(fù)責(zé)邏輯復(fù)雜的調(diào)度和串行任務(wù)，加速器負(fù)責(zé)并行度高的任務(wù)，實(shí)現(xiàn)計(jì)算加速。具體來說，采用異構(gòu)計(jì)算架構(gòu)的超算在運(yùn)算中既使用處理器，又使用GPU或眾核芯片等加速器。以美國泰坦和中國天河2號(hào)為例，泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn)，每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD-Opteron-6274處理器和1個(gè)NVIDIA-Tesla-K20加速器組成，共計(jì)299008個(gè)運(yùn)算核心；天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)由2片Intel-E5-2692和3片Xeon-Phi組成，共使用了32000片Intel-E5-2692和48000片Xeon-Phi。除了泰坦和天河2號(hào)之外，曙光6000和天河1號(hào)也采用的是異構(gòu)計(jì)算架構(gòu)。

?大規(guī)模科學(xué)計(jì)算一般都能做到高度并行化，能將計(jì)算任務(wù)拆分給海量的小核心來并行執(zhí)行。因此，在加速器選擇方面就產(chǎn)生了三個(gè)方案：

一是用GPGPU做加速器。因?yàn)镚PU是大寬度并行結(jié)構(gòu)（GPU擁有海量SIMD計(jì)算單元），高端GPU的資源集成度非常高，能很容易做到非常高的理論雙精浮點(diǎn)計(jì)算能力。以英偉達(dá)最新的加速卡K80為例,該加速卡功耗300W，雙精浮點(diǎn)高達(dá)2.9TFlops。

二是用眾核芯片做加速器。一方面添加浮點(diǎn)、向量指令（比如Intel的AVX、FMA，龍芯的LoongSIMD）提升浮點(diǎn)性能。另一方面堆砌核心數(shù)量，比如Intel的第一代Xeon-PHI就有60核，雙精浮點(diǎn)性能為1T，功耗為300W；龍芯也曾經(jīng)有過16核的龍芯3C的方案，但在工作進(jìn)度完成大半后被迫放棄。

三是用GPDSP做加速器。國防科大自主研發(fā)了矩陣2000以替代Intel的Xeon-PHI，矩陣2000雙精浮點(diǎn)達(dá)2.4T，功耗200W，雖然離第二代至強(qiáng)PHI雙精浮點(diǎn)3T的性能有差距，但性能和性能-功耗比都足以笑傲天河2號(hào)正在使用的Intel第一代至強(qiáng)PHI，成為天河2A升級(jí)計(jì)劃中至強(qiáng)PHI計(jì)算卡的理想替代品。

****************************************************************************************************

GPGPU和GPDSP的優(yōu)缺點(diǎn)

GPU的大寬度并行結(jié)構(gòu)能做到非常高的理論雙精浮點(diǎn)計(jì)算能力（英偉達(dá)的加速卡K80雙精浮點(diǎn)高達(dá)2.9TFlops）。但因CPU和GPU的編程模型是不一致，導(dǎo)致GPGPU在編程方面很不方便，只能跑OpenCL、OpenACC、CUDA代碼，不能跑OpenMP并行處理的代碼。加上GPGPU作為加速卡和CPU是不共享內(nèi)存，需要程序員顯式拷貝，進(jìn)而導(dǎo)致數(shù)據(jù)訪問速度變慢。因此，GPGPU相對(duì)而言編程麻煩、效率相對(duì)而言并不高、通用性差，但是性能-功耗比高。

GPDSP是國防科大首創(chuàng)，是應(yīng)對(duì)美國禁售Xeon-PHI的技術(shù)儲(chǔ)備和秘密武器。國防科大最遲在2013年就開始著手GPDSP的研發(fā)工作。今年發(fā)布的矩陣2000采用40nm制程工藝，擁有16核，主頻1G，雙精浮點(diǎn)2.4T，功耗為200W。因此，矩陣2000雖然在性能上因受制于國內(nèi)的制造工藝和設(shè)計(jì)水平，在性能上不如GPGPU，但在性能-功耗上已經(jīng)略優(yōu)于GPGPU（2.4T/200W對(duì)比 2.91T/300W)，而且已經(jīng)大幅優(yōu)于天河2號(hào)目前使用的第一代至強(qiáng)PHI計(jì)算卡（2.4T/200W 對(duì)比

1T/300W）。

GPDSP相對(duì)于GPGPU更接近于CPU，可以獨(dú)立運(yùn)行OS（Linux或其它實(shí)時(shí)內(nèi)核），在編程方面比GPGPU稍微容易一些（其實(shí)相對(duì)于CPU兩者編程難度都很大）。矩陣2000也是帶分支能力的眾核處理器，和Xeon-

PHI是相似類型計(jì)算卡，理論上講，擴(kuò)充一些GPDSP編譯指導(dǎo)語句也能跑OpenMP代碼。當(dāng)然，GPDSP也能跑OpenCL、OpenACC并行處理代碼（異構(gòu)代碼）。

因此，GPDSP雖然在性能上不如GPGPU，但在性能-功耗上已經(jīng)略優(yōu)于GPGPU（2.4T/200W 對(duì)比

2.91T/300W)，在效率和通用性方面優(yōu)于GPGPU。

GPU在做并行計(jì)算時(shí)，傳統(tǒng)渲染架構(gòu)中的TMU、ROP等特性毫無用處，反而占用了晶體管資源。DSP是純粹向量機(jī)，不像GPU那樣有光柵化渲染占晶體管，影響管線結(jié)構(gòu)。

雖然GPU是大寬度并行結(jié)構(gòu)，高端GPU的資源集成度非常高，能很容易做到非常高的理論雙精浮點(diǎn)計(jì)算能力，但在彼此工藝和集成能力相當(dāng)?shù)那闆r下，舍棄圖形部分的DSP的晶體管效率更高，而且訪存效率也高于GPU傳統(tǒng)圖形渲染管線那種繞彎子的訪存方式。

因此，GPDSP在效率方面比GPGPU具有先天優(yōu)勢，很有可能就是借鑒了GPU的Shader執(zhí)行部分的管理和執(zhí)行結(jié)構(gòu)，但又沒有GPU那么多歷史遺留框架造成的負(fù)面影響。國防科大在天河1和天河2的研制過程中，在加速器的選擇方面把眾核處理器和GPU都試了一遍，相信選擇GPDSP路線是國防科大深思熟慮后的結(jié)果——中國在制造工藝和超大集成度芯片設(shè)計(jì)能力不如國外英偉達(dá)、IBM、Intel等國外巨頭的時(shí)候，走GPDSP路線是縮短和國外產(chǎn)品在絕對(duì)性能上差距的有效途徑。

根據(jù)國防科大公布的資料，因保留了天河2號(hào)的主體I/O結(jié)構(gòu)，計(jì)算節(jié)點(diǎn)處理器依舊使用E5-2692V2，計(jì)算節(jié)點(diǎn)增加到18000個(gè)，按照一個(gè)計(jì)算節(jié)點(diǎn)需要2個(gè)E5和3個(gè)加速器來計(jì)算，天河2A需要36000片E5和54000片矩陣2000，僅54000片矩陣2000理論浮點(diǎn)峰值可以達(dá)到129.6Pflops。

國防科大若要將藍(lán)圖變成現(xiàn)實(shí)，技術(shù)難點(diǎn)已經(jīng)不再是芯片的設(shè)計(jì)和制造，而是軟件堆棧，包括GPDPS驅(qū)動(dòng)程序、操作系統(tǒng)、編譯器、基礎(chǔ)庫等，這是一項(xiàng)工程量巨大的工作。

????? ? ?????
' /\_,,,,_/\ ?????
'┃ ?? ? ? ?┃
'┃ΞΞ?ΞΞ┃?
'╰┳━┳╯
'╭┫ ? ┣╮?
'┺┻┻┻┹?

轉(zhuǎn)載于:https://www.cnblogs.com/xingzifei/p/4998448.html

總結(jié)

以上是生活随笔為你收集整理的各种加速卡异构计算的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

编程问答

各种加速卡 异构计算

總結(jié)

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

各种加速卡异构计算