大規(guī)模CFD高效CPU-GPU異構(gòu)并行計(jì)算關(guān)鍵技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩166頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算流體力學(xué)(Computational Fluid Dynamics,CFD)采用數(shù)值計(jì)算方法求解流動(dòng)控制方程以發(fā)現(xiàn)各種流動(dòng)現(xiàn)象和規(guī)律,已廣泛應(yīng)用于航空航天等領(lǐng)域。隨著數(shù)值模擬的幾何外形、物理模型日益復(fù)雜,流動(dòng)機(jī)理研究越來(lái)越精細(xì),CFD計(jì)算的規(guī)模和復(fù)雜度空前增長(zhǎng),迫切需要利用高性能計(jì)算機(jī)實(shí)現(xiàn)高效CFD并行計(jì)算以提升CFD應(yīng)用效率。
  近年來(lái),隨著圖像處理器(Graphics Processing Unit,GPU)浮點(diǎn)運(yùn)算性能

2、和可編程性的提升,采用CPU/GPU異構(gòu)體系結(jié)構(gòu)成為構(gòu)造高性能計(jì)算機(jī)系統(tǒng)的一種趨勢(shì)。盡管異構(gòu)體系結(jié)構(gòu)能夠在兼顧通用性和效能的同時(shí)大幅提升系統(tǒng)性能,但復(fù)雜的硬件架構(gòu)要求研究者綜合利用多種編程模型以挖掘多層次并行性,對(duì)高效CFD并行應(yīng)用開發(fā)帶來(lái)了極大的挑戰(zhàn)。
  本文面向CPU/GPU異構(gòu)體系結(jié)構(gòu)和典型CFD應(yīng)用,圍繞大規(guī)模、高效CFD異構(gòu)協(xié)同并行計(jì)算關(guān)鍵技術(shù)開展研究,重點(diǎn)研究了CFD應(yīng)用異構(gòu)協(xié)同并行編程框架、并行算法和性能優(yōu)化、負(fù)載

3、均衡等問題。論文的工作包括:
 ?。?)針對(duì)多區(qū)塊結(jié)構(gòu)網(wǎng)格CFD計(jì)算的特點(diǎn),提出了適應(yīng)大型CPU/GPU異構(gòu)系統(tǒng)的TLCF三層異構(gòu)協(xié)同編程框架。綜合MPI、OpenMP和CUDA編程模型,給出了TLCF框架的三種實(shí)例:嵌套OpenMP的TLCF框架(NOMP-TLCF)、OpenMP異步執(zhí)行的TLCF框架(OMPAE-TLCF)以及MPI異步執(zhí)行的TLCF框架(MPIAE-TLCF)。通過分析這三種編程框架的優(yōu)缺點(diǎn),發(fā)現(xiàn)NOMP-

4、TLCF編程框架更適用于大規(guī)模異構(gòu)并行系統(tǒng)上CFD應(yīng)用的開發(fā)。
 ?。?)針對(duì)計(jì)算流體力學(xué)中格子Boltzmann方程的求解,研究其在CPU/GPU異構(gòu)并行系統(tǒng)上的并行算法。首先,針對(duì)算法中的碰撞、遷移及邊界處理過程,構(gòu)建了基于網(wǎng)格單元映射的單GPU并行方法;在傳統(tǒng)的依賴共享存儲(chǔ)(AS)算法基礎(chǔ)上,提出直接存儲(chǔ)(AD)算法以適應(yīng)單GPU訪存方式的發(fā)展。然后,根據(jù)CPU和GPU的協(xié)同方式及通信與計(jì)算重疊的程度,分別提出了基本并行LB

5、M-base算法、通信與計(jì)算重疊并行LBM-overlap算法、CPU/GPU協(xié)同計(jì)算并行LBM-hybrid算法。算法性能的理論分析和測(cè)試結(jié)果表明,相對(duì)AS算法,AD算法能采用更多線程配置,獲得更好性能。相對(duì)于兩個(gè)6核CPU,格子Boltzmann方法在單GPU上可獲得17倍的性能加速比。多計(jì)算節(jié)點(diǎn)的并行性能測(cè)試結(jié)果顯示,相對(duì)于單個(gè)計(jì)算節(jié)點(diǎn),性能最好的LBM-hybrid并行算法在128個(gè)計(jì)算節(jié)點(diǎn)上能獲得82.0%并行效率。
 

6、?。?)針對(duì)計(jì)算流體力學(xué)中的Navier-Stokes方程的求解,研究其在CPU/GPU異構(gòu)并行系統(tǒng)上的并行算法。首先,提出了基于網(wǎng)格單元的細(xì)粒度單GPU并行算法;為消除無(wú)粘項(xiàng)求解過程中的數(shù)據(jù)依賴,提出了冗余計(jì)算方法和內(nèi)核函數(shù)分解方法。然后,基于NOMP-TLCF編程框架提出了基于網(wǎng)格區(qū)塊的粗粒度并行算法,并通過流與異步執(zhí)行的方式重疊數(shù)據(jù)傳輸與GPU計(jì)算過程,減少CPU與GPU之間數(shù)據(jù)傳輸?shù)拈_銷。針對(duì)計(jì)算節(jié)點(diǎn)內(nèi)不同處理部件的計(jì)算能力和存

7、儲(chǔ)能力的差異,提出了Out-of-Core方法以增加單個(gè)節(jié)點(diǎn)上的模擬規(guī)模。進(jìn)一步的,我們提出了TCBO和TCBL兩種傳輸策略,降低計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)通信開銷。數(shù)值實(shí)驗(yàn)驗(yàn)證了異構(gòu)并行算法的正確性,相對(duì)于單核CPU,GPU的性能加速比在8倍左右;相對(duì)于兩個(gè)6核CPU,單GPU能獲得約1.85倍的性價(jià)比優(yōu)勢(shì);強(qiáng)擴(kuò)展性和弱擴(kuò)展性測(cè)試結(jié)果都表明該并行算法有較好的加速比和并行效率。
 ?。?)從粗粒度和細(xì)粒度兩個(gè)方面,研究了CPU/GPU異構(gòu)并

8、行系統(tǒng)的負(fù)載均衡策略。在粗粒度負(fù)載均衡方面,對(duì)于多區(qū)塊結(jié)構(gòu)網(wǎng)格Navier-Stokes方程的求解,考慮了不同處理單元的計(jì)算性能差異以及通信對(duì)應(yīng)用性能影響,提出了基于性能模型的靜態(tài)負(fù)載均衡策略。然后,為消除性能模型中的若干假設(shè),提出了基于預(yù)取的任務(wù)竊取動(dòng)態(tài)調(diào)度算法。實(shí)驗(yàn)測(cè)試表明,兩種負(fù)載均衡算法都能較好的均衡處理單元之間的負(fù)載。在細(xì)粒度負(fù)載均衡方面,針對(duì)稀疏矩陣向量乘的求解,研究其在采用不同稀疏矩陣存儲(chǔ)格式時(shí)GPU的性能,指出當(dāng)矩陣各行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論