各种加速卡 异构计算
異構(gòu)計(jì)算:
異構(gòu)計(jì)算要使用不同類型的處理器來處理不同類型的計(jì)算任務(wù)。常見的計(jì)算單元包括CPU、GPGPU、GPDSP、ASIC、FPGA和其它類型的眾核處理器等。
目前有很多加速卡或者協(xié)處理器,用于增加系統(tǒng)性能,常見的有:
GPGPU 是最常見的加速卡,通過PCI-e相連。 GPU 最早是用于圖形處理卡,即顯卡,后來慢慢發(fā)展成為加速卡。2010年,天河一號(hào)使用CPU+GPU異構(gòu)結(jié)構(gòu)獲得TOP500第一。當(dāng)時(shí),天河一號(hào)采用的是GPU是AMD的。 天河一號(hào)A采用的是Nvidia的GPU卡。
Xeon Phi 是intel生產(chǎn)的協(xié)處理器,通過PCI-e 相連。目的是于GPU抗衡,因?yàn)镮ntel顯卡不是優(yōu)勢。天河二號(hào)采用的便是 Xeon E5 + Xeon Phi。
FPGA 加速卡在2014年也提出了。在SC14, Xilinux便展示了Alpha Data 公司生產(chǎn)的 ADM-PCIE-7V3 FPGA加速板,通過PCIe和host cpu相連,加載Virtex 7系列。FPGA最初的應(yīng)用是為了驗(yàn)證邏輯設(shè)計(jì),即作為開發(fā)板,即用于驗(yàn)證邏輯設(shè)計(jì),然后將該設(shè)計(jì)流片,生成ASIC芯片?,F(xiàn)在,FPGA已經(jīng)作為加速卡(即插即用)!!
GPDSP ?因?yàn)槊绹鳬ntel禁售Xeon Phi,因此國防科大提出GPDSP作為協(xié)處理器,目前還在醞釀中。
?
?
?
?
下面是轉(zhuǎn)載:
****************************************************************************************************
異構(gòu)計(jì)算是一種分布式計(jì)算,它或是用能同時(shí)支持SIMD方式和MIMD方式的單個(gè)獨(dú)立計(jì)算機(jī),或是用由高速網(wǎng)絡(luò)互連的一組獨(dú)立計(jì)算機(jī)來完成計(jì)算任務(wù)。采用異構(gòu)計(jì)算架構(gòu)的超算會(huì)使用至少2種類型的處理器,其中異構(gòu)計(jì)算架構(gòu)中通用CPU負(fù)責(zé)邏輯復(fù)雜的調(diào)度和串行任務(wù),加速器負(fù)責(zé)并行度高的任務(wù),實(shí)現(xiàn)計(jì)算加速。具體來說,采用異構(gòu)計(jì)算架構(gòu)的超算在運(yùn)算中既使用處理器,又使用GPU或眾核芯片等加速器。以美國泰坦和中國天河2號(hào)為例,泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn),每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD-Opteron-6274處理器和1個(gè)NVIDIA-Tesla-K20加速器組成,共計(jì)299008個(gè)運(yùn)算核心;天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由2片Intel-E5-2692和3片Xeon-Phi組成,共使用了32000片Intel-E5-2692和48000片Xeon-Phi。除了泰坦和天河2號(hào)之外,曙光6000和天河1號(hào)也采用的是異構(gòu)計(jì)算架構(gòu)。
?大規(guī)模科學(xué)計(jì)算一般都能做到高度并行化,能將計(jì)算任務(wù)拆分給海量的小核心來并行執(zhí)行。因此,在加速器選擇方面就產(chǎn)生了三個(gè)方案:
一是用GPGPU做加速器。因?yàn)镚PU是大寬度并行結(jié)構(gòu)(GPU擁有海量SIMD計(jì)算單元),高端GPU的資源集成度非常高,能很容易做到非常高的理論雙精浮點(diǎn)計(jì)算能力。以英偉達(dá)最新的加速卡K80為例,該加速卡功耗300W,雙精浮點(diǎn)高達(dá)2.9TFlops。
二是用眾核芯片做加速器。一方面添加浮點(diǎn)、向量指令(比如Intel的AVX、FMA,龍芯的LoongSIMD)提升浮點(diǎn)性能。另一方面堆砌核心數(shù)量,比如Intel的第一代Xeon-PHI就有60核,雙精浮點(diǎn)性能為1T,功耗為300W;龍芯也曾經(jīng)有過16核的龍芯3C的方案,但在工作進(jìn)度完成大半后被迫放棄。
三是用GPDSP做加速器。國防科大自主研發(fā)了矩陣2000以替代Intel的Xeon-PHI,矩陣2000雙精浮點(diǎn)達(dá)2.4T,功耗200W,雖然離第二代至強(qiáng)PHI雙精浮點(diǎn)3T的性能有差距,但性能和性能-功耗比都足以笑傲天河2號(hào)正在使用的Intel第一代至強(qiáng)PHI,成為天河2A升級(jí)計(jì)劃中至強(qiáng)PHI計(jì)算卡的理想替代品。
?
?
?
?
****************************************************************************************************
GPGPU和GPDSP的優(yōu)缺點(diǎn)
GPU的大寬度并行結(jié)構(gòu)能做到非常高的理論雙精浮點(diǎn)計(jì)算能力(英偉達(dá)的加速卡K80雙精浮點(diǎn)高達(dá)2.9TFlops)。但因CPU和GPU的編程模型是不一致,導(dǎo)致GPGPU在編程方面很不方便,只能跑OpenCL、OpenACC、CUDA代碼,不能跑OpenMP并行處理的代碼。加上GPGPU作為加速卡和CPU是不共享內(nèi)存,需要程序員顯式拷貝,進(jìn)而導(dǎo)致數(shù)據(jù)訪問速度變慢。因此,GPGPU相對(duì)而言編程麻煩、效率相對(duì)而言并不高、通用性差,但是性能-功耗比高。
GPDSP是國防科大首創(chuàng),是應(yīng)對(duì)美國禁售Xeon-PHI的技術(shù)儲(chǔ)備和秘密武器。國防科大最遲在2013年就開始著手GPDSP的研發(fā)工作。今年發(fā)布的矩陣2000采用40nm制程工藝,擁有16核,主頻1G,雙精浮點(diǎn)2.4T,功耗為200W。因此,矩陣2000雖然在性能上因受制于國內(nèi)的制造工藝和設(shè)計(jì)水平,在性能上不如GPGPU,但在性能-功耗上已經(jīng)略優(yōu)于GPGPU(2.4T/200W對(duì)比 2.91T/300W),而且已經(jīng)大幅優(yōu)于天河2號(hào)目前使用的第一代至強(qiáng)PHI計(jì)算卡(2.4T/200W 對(duì)比
1T/300W)。
?
GPDSP相對(duì)于GPGPU更接近于CPU,可以獨(dú)立運(yùn)行OS(Linux或其它實(shí)時(shí)內(nèi)核),在編程方面比GPGPU稍微容易一些(其實(shí)相對(duì)于CPU兩者編程難度都很大)。矩陣2000也是帶分支能力的眾核處理器,和Xeon-
PHI是相似類型計(jì)算卡,理論上講,擴(kuò)充一些GPDSP編譯指導(dǎo)語句也能跑OpenMP代碼。當(dāng)然,GPDSP也能跑OpenCL、OpenACC并行處理代碼(異構(gòu)代碼)。
因此,GPDSP雖然在性能上不如GPGPU,但在性能-功耗上已經(jīng)略優(yōu)于GPGPU(2.4T/200W 對(duì)比
2.91T/300W),在效率和通用性方面優(yōu)于GPGPU。
?
GPU在做并行計(jì)算時(shí),傳統(tǒng)渲染架構(gòu)中的TMU、ROP等特性毫無用處,反而占用了晶體管資源。DSP是純粹向量機(jī),不像GPU那樣有光柵化渲染占晶體管,影響管線結(jié)構(gòu)。
雖然GPU是大寬度并行結(jié)構(gòu),高端GPU的資源集成度非常高,能很容易做到非常高的理論雙精浮點(diǎn)計(jì)算能力,但在彼此工藝和集成能力相當(dāng)?shù)那闆r下,舍棄圖形部分的DSP的晶體管效率更高,而且訪存效率也高于GPU傳統(tǒng)圖形渲染管線那種繞彎子的訪存方式。
因此,GPDSP在效率方面比GPGPU具有先天優(yōu)勢,很有可能就是借鑒了GPU的Shader執(zhí)行部分的管理和執(zhí)行結(jié)構(gòu),但又沒有GPU那么多歷史遺留框架造成的負(fù)面影響。國防科大在天河1和天河2的研制過程中,在加速器的選擇方面把眾核處理器和GPU都試了一遍,相信選擇GPDSP路線是國防科大深思熟慮后的結(jié)果——中國在制造工藝和超大集成度芯片設(shè)計(jì)能力不如國外英偉達(dá)、IBM、Intel等國外巨頭的時(shí)候,走GPDSP路線是縮短和國外產(chǎn)品在絕對(duì)性能上差距的有效途徑。
?
根據(jù)國防科大公布的資料,因保留了天河2號(hào)的主體I/O結(jié)構(gòu),計(jì)算節(jié)點(diǎn)處理器依舊使用E5-2692V2,計(jì)算節(jié)點(diǎn)增加到18000個(gè),按照一個(gè)計(jì)算節(jié)點(diǎn)需要2個(gè)E5和3個(gè)加速器來計(jì)算,天河2A需要36000片E5和54000片矩陣2000,僅54000片矩陣2000理論浮點(diǎn)峰值可以達(dá)到129.6Pflops。
國防科大若要將藍(lán)圖變成現(xiàn)實(shí),技術(shù)難點(diǎn)已經(jīng)不再是芯片的設(shè)計(jì)和制造,而是軟件堆棧,包括GPDPS驅(qū)動(dòng)程序、操作系統(tǒng)、編譯器、基礎(chǔ)庫等,這是一項(xiàng)工程量巨大的工作。
?
?
?
?
?
?
?
????? ? ?????
' /\_,,,,_/\ ?????
'┃ ?? ? ? ?┃
'┃ΞΞ?ΞΞ┃?
'╰┳━┳╯
'╭┫ ? ┣╮?
'┺┻┻┻┹?
轉(zhuǎn)載于:https://www.cnblogs.com/xingzifei/p/4998448.html
總結(jié)
以上是生活随笔為你收集整理的各种加速卡 异构计算的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。