面向千萬億次CPU-GPU異構(gòu)系統(tǒng)的編程模型與性能優(yōu)化關(guān)鍵技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁數(shù)：138 大?。?.76MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

面向千萬億次CPU-GPU異構(gòu)系統(tǒng)的編程模型與性能優(yōu)化關(guān)鍵技術(shù)研究.pdf_第1頁

已閱讀1頁，還剩137頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、科學(xué)計(jì)算永無止境的計(jì)算需求驅(qū)動(dòng)著高性能計(jì)算機(jī)系統(tǒng)進(jìn)入了千萬億次時(shí)代，面向千萬億次系統(tǒng)的各種關(guān)鍵技術(shù)將是未來構(gòu)建百萬萬億次系統(tǒng)的基石。受到CMOS工藝特征尺寸、功耗和散熱等技術(shù)的限制，完全依靠CPU提供計(jì)算能力的同構(gòu)計(jì)算機(jī)系統(tǒng)在到達(dá)千萬億次系統(tǒng)規(guī)模后很難再進(jìn)行擴(kuò)充。而使用GPU作為加速器的異構(gòu)系統(tǒng)在性能功耗比方面比同構(gòu)系統(tǒng)更有優(yōu)勢(shì)，也是構(gòu)建百萬萬億次系統(tǒng)最有前景的技術(shù)路線之一。2010年11月國防科大計(jì)算機(jī)學(xué)院為天津超算中心構(gòu)建的天河-1

2、A使用了NVIDIA的Fermi GPU，以2.566 PFLOPS的可持續(xù)運(yùn)算速度排名世界第一。這種CPU-GPU異構(gòu)系統(tǒng)提供了強(qiáng)大的計(jì)算能力，但用戶編程和性能優(yōu)化都與傳統(tǒng)的同構(gòu)計(jì)算機(jī)不同，成為發(fā)揮整個(gè)系統(tǒng)性能的關(guān)鍵。針對(duì)目前大規(guī)模異構(gòu)系統(tǒng)上應(yīng)用程序編程難、優(yōu)化難的問題，本文以千萬億次CPU-GPU異構(gòu)系統(tǒng)為平臺(tái)，研究了異構(gòu)系統(tǒng)的編程模型以及優(yōu)化方法。
　　本研究主要內(nèi)容包括：⑴在千萬億次CPU-GPU異構(gòu)計(jì)算機(jī)系統(tǒng)上引入了MP

3、I/OpenMP/Streaming混合編程模型，并擴(kuò)展至全系統(tǒng)規(guī)模。針對(duì)混合編程模型中軟件任務(wù)到硬件資源映射的問題，提出了以結(jié)點(diǎn)為中心的任務(wù)映射、以CPU為中心的任務(wù)映射和以GPU為中心的任務(wù)映射。并針對(duì)大規(guī)模并行系統(tǒng)結(jié)點(diǎn)內(nèi)編程模型總結(jié)出7項(xiàng)需求：簡單易用性、性能可擴(kuò)展性、存儲(chǔ)可擴(kuò)展性、模型層次性、調(diào)度靈活性、模型異構(gòu)性、定位準(zhǔn)確性，用于評(píng)估目前的編程模型。另外，提出了基于共享內(nèi)存的多進(jìn)程共享使用GPU的方法，并給出了高效編程實(shí)現(xiàn)。⑵

4、基于測量的自適應(yīng)任務(wù)劃分技術(shù)。我們將所有的任務(wù)放在一個(gè)任務(wù)隊(duì)列中，循環(huán)地從任務(wù)隊(duì)列中獲取任務(wù)，每次取出的任務(wù)根據(jù)當(dāng)前的“任務(wù)劃分比率”劃分成CPU執(zhí)行和加速器執(zhí)行兩部分，初始的“任務(wù)劃分比率”由CPU和加速器的理論計(jì)算峰值得到。劃分完畢之后在異構(gòu)平臺(tái)上執(zhí)行，并在執(zhí)行完畢進(jìn)行實(shí)際性能測量，將統(tǒng)計(jì)得到的性能結(jié)果和本次劃分的任務(wù)負(fù)載相結(jié)合，更新“任務(wù)劃分比率”，作為下次任務(wù)劃分的依據(jù)。由于每次任務(wù)劃分并執(zhí)行完畢后，任務(wù)劃分比率都被自適應(yīng)地調(diào)整

5、，使得主機(jī)和加速器之間的任務(wù)分配獲得了很好的負(fù)載平衡效果，大大提升了異構(gòu)系統(tǒng)的計(jì)算效率。⑶基于有限狀態(tài)自動(dòng)機(jī)的嵌套雙緩沖軟件流水技術(shù)。GPU程序的執(zhí)行分為數(shù)據(jù)輸入、GPU計(jì)算、數(shù)據(jù)輸出三個(gè)部分。我們分析了異構(gòu)系統(tǒng)上軟件流水的執(zhí)行模型和代價(jià)模型，并設(shè)計(jì)了嵌套雙緩沖軟件流水機(jī)制。在實(shí)現(xiàn)過程中，我們使用了基于有限狀態(tài)自動(dòng)機(jī)的方法，用單個(gè)CPU線程控制了多任務(wù)的輸入、執(zhí)行和輸出，并將三者有序的重疊執(zhí)行。實(shí)驗(yàn)表明，這種方法極大緩解了主機(jī)和加速器間

6、帶寬不足的問題，能有效解決原有GPU庫性能波動(dòng)的問題。針對(duì)BLAS3中DGEMM不同問題規(guī)模的測試，平均性能提升達(dá)到7.61％。⑷在千萬億次 CPU-GPU異構(gòu)系統(tǒng)上設(shè)計(jì)并實(shí)現(xiàn)了高效的LINPACK程序（Hybrid-LINPACK）。首先設(shè)計(jì)并實(shí)現(xiàn)了能夠同時(shí)使用CPU和GPU計(jì)算能力的異構(gòu)BLAS庫，然后基于異構(gòu)BLAS庫，使用了MPI/OpenMP/Streaming混合編程模型，結(jié)合同構(gòu)系統(tǒng)上的高性能LINPACK實(shí)現(xiàn)（HPL2.

7、0），實(shí)現(xiàn)并優(yōu)化了Hybrid-LINPACK。優(yōu)化方法主要涉及CPU與GPU的任務(wù)劃分、CPU與GPU的通信優(yōu)化、SWAP算法并行化優(yōu)化、結(jié)點(diǎn)間數(shù)據(jù)傳輸優(yōu)化、以及HPL傳統(tǒng)的優(yōu)化方法和參數(shù)調(diào)優(yōu)等。Hybrid-LINPACK充分發(fā)揮了硬件和體系結(jié)構(gòu)設(shè)計(jì)提供的強(qiáng)大計(jì)算和通信能力，在天河-1單個(gè)計(jì)算單元上比AMD發(fā)布的LINPACK實(shí)現(xiàn)取得了3.3倍的加速比，獲得70.1%的計(jì)算效率。最終全系統(tǒng)LINPACK測試在天河-1和天河-1A上分

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

面向千萬億次CPU-GPU異構(gòu)系統(tǒng)的編程模型與性能優(yōu)化關(guān)鍵技術(shù)研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

面向千萬億次CPU-GPU異構(gòu)系統(tǒng)的編程模型與性能優(yōu)化關(guān)鍵技術(shù)研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載