面向千萬億次CPU-GPU異構(gòu)系統(tǒng)的編程模型與性能優(yōu)化關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、科學(xué)計(jì)算永無止境的計(jì)算需求驅(qū)動著高性能計(jì)算機(jī)系統(tǒng)進(jìn)入了千萬億次時代,面向千萬億次系統(tǒng)的各種關(guān)鍵技術(shù)將是未來構(gòu)建百萬萬億次系統(tǒng)的基石。受到CMOS工藝特征尺寸、功耗和散熱等技術(shù)的限制,完全依靠CPU提供計(jì)算能力的同構(gòu)計(jì)算機(jī)系統(tǒng)在到達(dá)千萬億次系統(tǒng)規(guī)模后很難再進(jìn)行擴(kuò)充。而使用GPU作為加速器的異構(gòu)系統(tǒng)在性能功耗比方面比同構(gòu)系統(tǒng)更有優(yōu)勢,也是構(gòu)建百萬萬億次系統(tǒng)最有前景的技術(shù)路線之一。2010年11月國防科大計(jì)算機(jī)學(xué)院為天津超算中心構(gòu)建的天河-1

2、A使用了NVIDIA的Fermi GPU,以2.566 PFLOPS的可持續(xù)運(yùn)算速度排名世界第一。這種CPU-GPU異構(gòu)系統(tǒng)提供了強(qiáng)大的計(jì)算能力,但用戶編程和性能優(yōu)化都與傳統(tǒng)的同構(gòu)計(jì)算機(jī)不同,成為發(fā)揮整個系統(tǒng)性能的關(guān)鍵。針對目前大規(guī)模異構(gòu)系統(tǒng)上應(yīng)用程序編程難、優(yōu)化難的問題,本文以千萬億次CPU-GPU異構(gòu)系統(tǒng)為平臺,研究了異構(gòu)系統(tǒng)的編程模型以及優(yōu)化方法。
  本研究主要內(nèi)容包括:⑴在千萬億次CPU-GPU異構(gòu)計(jì)算機(jī)系統(tǒng)上引入了MP

3、I/OpenMP/Streaming混合編程模型,并擴(kuò)展至全系統(tǒng)規(guī)模。針對混合編程模型中軟件任務(wù)到硬件資源映射的問題,提出了以結(jié)點(diǎn)為中心的任務(wù)映射、以CPU為中心的任務(wù)映射和以GPU為中心的任務(wù)映射。并針對大規(guī)模并行系統(tǒng)結(jié)點(diǎn)內(nèi)編程模型總結(jié)出7項(xiàng)需求:簡單易用性、性能可擴(kuò)展性、存儲可擴(kuò)展性、模型層次性、調(diào)度靈活性、模型異構(gòu)性、定位準(zhǔn)確性,用于評估目前的編程模型。另外,提出了基于共享內(nèi)存的多進(jìn)程共享使用GPU的方法,并給出了高效編程實(shí)現(xiàn)。⑵

4、基于測量的自適應(yīng)任務(wù)劃分技術(shù)。我們將所有的任務(wù)放在一個任務(wù)隊(duì)列中,循環(huán)地從任務(wù)隊(duì)列中獲取任務(wù),每次取出的任務(wù)根據(jù)當(dāng)前的“任務(wù)劃分比率”劃分成CPU執(zhí)行和加速器執(zhí)行兩部分,初始的“任務(wù)劃分比率”由CPU和加速器的理論計(jì)算峰值得到。劃分完畢之后在異構(gòu)平臺上執(zhí)行,并在執(zhí)行完畢進(jìn)行實(shí)際性能測量,將統(tǒng)計(jì)得到的性能結(jié)果和本次劃分的任務(wù)負(fù)載相結(jié)合,更新“任務(wù)劃分比率”,作為下次任務(wù)劃分的依據(jù)。由于每次任務(wù)劃分并執(zhí)行完畢后,任務(wù)劃分比率都被自適應(yīng)地調(diào)整

5、,使得主機(jī)和加速器之間的任務(wù)分配獲得了很好的負(fù)載平衡效果,大大提升了異構(gòu)系統(tǒng)的計(jì)算效率。⑶基于有限狀態(tài)自動機(jī)的嵌套雙緩沖軟件流水技術(shù)。GPU程序的執(zhí)行分為數(shù)據(jù)輸入、GPU計(jì)算、數(shù)據(jù)輸出三個部分。我們分析了異構(gòu)系統(tǒng)上軟件流水的執(zhí)行模型和代價模型,并設(shè)計(jì)了嵌套雙緩沖軟件流水機(jī)制。在實(shí)現(xiàn)過程中,我們使用了基于有限狀態(tài)自動機(jī)的方法,用單個CPU線程控制了多任務(wù)的輸入、執(zhí)行和輸出,并將三者有序的重疊執(zhí)行。實(shí)驗(yàn)表明,這種方法極大緩解了主機(jī)和加速器間

6、帶寬不足的問題,能有效解決原有GPU庫性能波動的問題。針對BLAS3中DGEMM不同問題規(guī)模的測試,平均性能提升達(dá)到7.61%。⑷在千萬億次 CPU-GPU異構(gòu)系統(tǒng)上設(shè)計(jì)并實(shí)現(xiàn)了高效的LINPACK程序(Hybrid-LINPACK)。首先設(shè)計(jì)并實(shí)現(xiàn)了能夠同時使用CPU和GPU計(jì)算能力的異構(gòu)BLAS庫,然后基于異構(gòu)BLAS庫,使用了MPI/OpenMP/Streaming混合編程模型,結(jié)合同構(gòu)系統(tǒng)上的高性能LINPACK實(shí)現(xiàn)(HPL2.

7、0),實(shí)現(xiàn)并優(yōu)化了Hybrid-LINPACK。優(yōu)化方法主要涉及CPU與GPU的任務(wù)劃分、CPU與GPU的通信優(yōu)化、SWAP算法并行化優(yōu)化、結(jié)點(diǎn)間數(shù)據(jù)傳輸優(yōu)化、以及HPL傳統(tǒng)的優(yōu)化方法和參數(shù)調(diào)優(yōu)等。Hybrid-LINPACK充分發(fā)揮了硬件和體系結(jié)構(gòu)設(shè)計(jì)提供的強(qiáng)大計(jì)算和通信能力,在天河-1單個計(jì)算單元上比AMD發(fā)布的LINPACK實(shí)現(xiàn)取得了3.3倍的加速比,獲得70.1%的計(jì)算效率。最終全系統(tǒng)LINPACK測試在天河-1和天河-1A上分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論