

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、科學計算永無止境的計算需求驅(qū)動著高性能計算機系統(tǒng)進入了千萬億次時代,面向千萬億次系統(tǒng)的各種關(guān)鍵技術(shù)將是未來構(gòu)建百萬萬億次系統(tǒng)的基石。受到CMOS工藝特征尺寸、功耗和散熱等技術(shù)的限制,完全依靠CPU提供計算能力的同構(gòu)計算機系統(tǒng)在到達千萬億次系統(tǒng)規(guī)模后很難再進行擴充。而使用GPU作為加速器的異構(gòu)系統(tǒng)在性能功耗比方面比同構(gòu)系統(tǒng)更有優(yōu)勢,也是構(gòu)建百萬萬億次系統(tǒng)最有前景的技術(shù)路線之一。2010年11月國防科大計算機學院為天津超算中心構(gòu)建的天河-1
2、A使用了NVIDIA的Fermi GPU,以2.566 PFLOPS的可持續(xù)運算速度排名世界第一。這種CPU-GPU異構(gòu)系統(tǒng)提供了強大的計算能力,但用戶編程和性能優(yōu)化都與傳統(tǒng)的同構(gòu)計算機不同,成為發(fā)揮整個系統(tǒng)性能的關(guān)鍵。針對目前大規(guī)模異構(gòu)系統(tǒng)上應用程序編程難、優(yōu)化難的問題,本文以千萬億次CPU-GPU異構(gòu)系統(tǒng)為平臺,研究了異構(gòu)系統(tǒng)的編程模型以及優(yōu)化方法。
本研究主要內(nèi)容包括:⑴在千萬億次CPU-GPU異構(gòu)計算機系統(tǒng)上引入了MP
3、I/OpenMP/Streaming混合編程模型,并擴展至全系統(tǒng)規(guī)模。針對混合編程模型中軟件任務到硬件資源映射的問題,提出了以結(jié)點為中心的任務映射、以CPU為中心的任務映射和以GPU為中心的任務映射。并針對大規(guī)模并行系統(tǒng)結(jié)點內(nèi)編程模型總結(jié)出7項需求:簡單易用性、性能可擴展性、存儲可擴展性、模型層次性、調(diào)度靈活性、模型異構(gòu)性、定位準確性,用于評估目前的編程模型。另外,提出了基于共享內(nèi)存的多進程共享使用GPU的方法,并給出了高效編程實現(xiàn)。⑵
4、基于測量的自適應任務劃分技術(shù)。我們將所有的任務放在一個任務隊列中,循環(huán)地從任務隊列中獲取任務,每次取出的任務根據(jù)當前的“任務劃分比率”劃分成CPU執(zhí)行和加速器執(zhí)行兩部分,初始的“任務劃分比率”由CPU和加速器的理論計算峰值得到。劃分完畢之后在異構(gòu)平臺上執(zhí)行,并在執(zhí)行完畢進行實際性能測量,將統(tǒng)計得到的性能結(jié)果和本次劃分的任務負載相結(jié)合,更新“任務劃分比率”,作為下次任務劃分的依據(jù)。由于每次任務劃分并執(zhí)行完畢后,任務劃分比率都被自適應地調(diào)整
5、,使得主機和加速器之間的任務分配獲得了很好的負載平衡效果,大大提升了異構(gòu)系統(tǒng)的計算效率。⑶基于有限狀態(tài)自動機的嵌套雙緩沖軟件流水技術(shù)。GPU程序的執(zhí)行分為數(shù)據(jù)輸入、GPU計算、數(shù)據(jù)輸出三個部分。我們分析了異構(gòu)系統(tǒng)上軟件流水的執(zhí)行模型和代價模型,并設(shè)計了嵌套雙緩沖軟件流水機制。在實現(xiàn)過程中,我們使用了基于有限狀態(tài)自動機的方法,用單個CPU線程控制了多任務的輸入、執(zhí)行和輸出,并將三者有序的重疊執(zhí)行。實驗表明,這種方法極大緩解了主機和加速器間
6、帶寬不足的問題,能有效解決原有GPU庫性能波動的問題。針對BLAS3中DGEMM不同問題規(guī)模的測試,平均性能提升達到7.61%。⑷在千萬億次 CPU-GPU異構(gòu)系統(tǒng)上設(shè)計并實現(xiàn)了高效的LINPACK程序(Hybrid-LINPACK)。首先設(shè)計并實現(xiàn)了能夠同時使用CPU和GPU計算能力的異構(gòu)BLAS庫,然后基于異構(gòu)BLAS庫,使用了MPI/OpenMP/Streaming混合編程模型,結(jié)合同構(gòu)系統(tǒng)上的高性能LINPACK實現(xiàn)(HPL2.
7、0),實現(xiàn)并優(yōu)化了Hybrid-LINPACK。優(yōu)化方法主要涉及CPU與GPU的任務劃分、CPU與GPU的通信優(yōu)化、SWAP算法并行化優(yōu)化、結(jié)點間數(shù)據(jù)傳輸優(yōu)化、以及HPL傳統(tǒng)的優(yōu)化方法和參數(shù)調(diào)優(yōu)等。Hybrid-LINPACK充分發(fā)揮了硬件和體系結(jié)構(gòu)設(shè)計提供的強大計算和通信能力,在天河-1單個計算單元上比AMD發(fā)布的LINPACK實現(xiàn)取得了3.3倍的加速比,獲得70.1%的計算效率。最終全系統(tǒng)LINPACK測試在天河-1和天河-1A上分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向CPU-GPU異構(gòu)并行計算的代碼生成關(guān)鍵技術(shù)研究.pdf
- CPU-GPU異構(gòu)系統(tǒng)上的高層編程模型及其編譯優(yōu)化技術(shù).pdf
- 基于CPU-GPU異構(gòu)平臺的性能優(yōu)化及多核并行編程模型的研究.pdf
- 大規(guī)模CFD高效CPU-GPU異構(gòu)并行計算關(guān)鍵技術(shù)研究.pdf
- CPU-GPU協(xié)同的道路監(jiān)控關(guān)鍵技術(shù)研究與開發(fā).pdf
- 面向異構(gòu)系統(tǒng)的并行編程關(guān)鍵技術(shù)研究.pdf
- 基于CPU-GPU異構(gòu)并行系統(tǒng)的Smith Waterman及HEVC加速技術(shù)研究.pdf
- 基于CPU-GPU異構(gòu)平臺的OTN性能測試系統(tǒng)研究與實現(xiàn).pdf
- CPu-GPU異構(gòu)平臺的性能優(yōu)化研究及其在實時信號模擬技術(shù)中的應用.pdf
- 基于CPU-GPU的遙感影像拼接技術(shù)研究.pdf
- 基于CPU-GPU平臺的虛擬化技術(shù)研究.pdf
- 面向CPU-GPU異構(gòu)系統(tǒng)的雙緩沖四段流水并行機制研究.pdf
- CPU-GPU異構(gòu)并行計算體系的設(shè)計與實現(xiàn).pdf
- 基于CPU-GPU異構(gòu)平臺的空間殼單元研究與應用.pdf
- 基于CPU-GPU異構(gòu)集群的矩量法研究.pdf
- 集成CPU-GPU架構(gòu)上的列存儲連接優(yōu)化技術(shù)研究.pdf
- CPU-GPU異構(gòu)體系任務調(diào)度框架的研究.pdf
- 面向多核CPU-眾核GPU異構(gòu)集群的數(shù)據(jù)流編程模型研究.pdf
- CPU-GPU混合編程模型上的并行譜聚類實現(xiàn).pdf
- 面向GPU計算平臺的若干并行優(yōu)化關(guān)鍵技術(shù)研究.pdf
評論
0/150
提交評論