面向CFD并行應用框架的容錯技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩175頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、器件工藝的發(fā)展和并行規(guī)模的不斷擴大,使得高性能計算機性能不斷得到提升,但也帶來編程墻和可靠性墻的嚴峻挑戰(zhàn),嚴重制約了高性能計算機應用的發(fā)展。對于編程墻問題,研究者們提出了面向領(lǐng)域的并行應用框架,實現(xiàn)了各學科專家在并行領(lǐng)域應用開發(fā)過程中的解耦,大幅度提高了并行領(lǐng)域應用的開發(fā)效率。而可靠性問題也一直是并行應用研究的熱點問題,已有眾多相關(guān)容錯理論研究,但都不夠透徹。傳統(tǒng)基于硬件的容錯方法面臨著容錯代價大、缺乏靈活性等諸多問題;而在實現(xiàn)層面上,

2、系統(tǒng)級容錯雖然面向用戶透明,但存在著開銷過大的問題;應用級容錯雖然一定程度上緩解了容錯開銷問題,卻使得用戶負擔加重。
  本文首次對面向CFD(Computational Fluid Dynamics)并行應用框架的容錯方法展開研究。應用框架下容錯能夠在實現(xiàn)向上層用戶透明的同時,保持應用級容錯方法的低開銷優(yōu)點。并且在CFD并行應用框架內(nèi),能夠?qū)⑷蒎e設計和實現(xiàn)與CFD并行應用特點進行有效結(jié)合,獲得更為高效的容錯優(yōu)化方法。因此,研究C

3、FD并行應用框架下的容錯技術(shù)對促進CFD并行應用發(fā)展有著重要意義。
  本文在現(xiàn)有CFD并行應用軟件框架的基礎(chǔ)上,研究了面向CFD并行應用軟件框架的容錯技術(shù)。我們設計和構(gòu)建了框架內(nèi)的軟件容錯架構(gòu),針對錯誤檢測和錯誤恢復這兩個容錯關(guān)鍵問題提出了一系列容錯方法和優(yōu)化技術(shù)。本文的主要工作和創(chuàng)新點體現(xiàn)在:
  1.以狀態(tài)變遷圖STG為基礎(chǔ),建立并行程序和CFD并行應用中的錯誤傳播模型(第二章)
  硬件故障在并行程序中的傳播行

4、為是研究面向硬件故障的軟件容錯技術(shù)基礎(chǔ),而對并行程序的抽象建模又是故障傳播行為研究的基礎(chǔ)。本文首先提出了基于程序狀態(tài)跟蹤的狀態(tài)變遷圖理論,在狀態(tài)變遷圖理論中,對沖突、因果、并發(fā)關(guān)系進行了抽象,同時也支持系統(tǒng)間的交互抽象和行為抽象?;跔顟B(tài)變遷圖STG理論,我們對故障在并行程序中的傳播行為進行了分析,包括原生錯誤、數(shù)據(jù)流生錯誤和控制流生錯誤以及通信引起的傳播錯誤等,并分別給出了錯誤傳播方程及相關(guān)求解算法。
  同時,本文還從CFD并

5、行應用的連續(xù)模型和離散模型出發(fā),對他們的核心計算過程和特征進行了分析,得到連續(xù)CFD模型下以差分操作為核心的計算模式和離散CFD模型下以模板為核心的計算模式,并將兩類CFD模擬計算核心特征統(tǒng)一抽象為以計算模板為核心的計算模式。以模板計算為基礎(chǔ),我們給出了錯誤在計算模板中的傳播方程,以及CFD模擬過程中應用級錯誤傳播相關(guān)求解算法。
  2.基于現(xiàn)有CFD并行應用軟件框架提出了面向CFD并行應用框架的容錯架構(gòu)(第三章)
  基于

6、并行程序錯誤傳播模型和CFD應用級錯誤傳播模型,在現(xiàn)有CFD并行應用軟件框架的基礎(chǔ)上,設計了面向CFD并行應用框架的容錯架構(gòu)。結(jié)合CFD應用中的天然容錯基礎(chǔ)和相關(guān)容錯需求,我們設計了CFD并行應用框架下的同步回滾方法和異步回滾方法。在同步回滾方法中,重點利用CFD原有的周期性快照輸出以最小代價實現(xiàn)檢查點備份操作。而在異步回滾方法中,采用用戶級sender-based消息日志技術(shù),解決了失效進程的通信重演問題。
  3.結(jié)合離散CF

7、D應用特征提出了面向模板計算的軟錯誤檢測方法——GS-DMR(第四章)
  本文基于應用級錯誤傳播模型,結(jié)合離散模型的CFD并行應用特征,提出了基于網(wǎng)格采樣的雙模冗余檢錯方法,能夠大幅度減少模板計算中對軟錯誤的檢錯開銷。我們基于軟錯誤在網(wǎng)格上的傳播規(guī)律,并使用數(shù)學建模量化分析了如何獲得GS-DMR方法中的最優(yōu)檢錯周期、最優(yōu)檢查點周期和最優(yōu)網(wǎng)格采樣尺寸等,以及獲取這些最優(yōu)參數(shù)的啟發(fā)式算法。針對GS-DMR方法中錯誤傳播延遲帶來的檢錯

8、盲區(qū)問題,我們提出了包括冒險檢查點、多重檢查點和混合檢錯在內(nèi)的多重解決策略,并根據(jù)實用性需求選擇了混合檢錯方案。
  4.提出了檢查點異步流水I/O優(yōu)化方法——AP-IO(第五章)
  本文針對checkpoint開銷過大的問題,提出異步流水檢查點I/O優(yōu)化方法——AP-IO,將形成檢查點備份數(shù)據(jù)的多個數(shù)據(jù)場采用流水方式異步寫出,而不是在時間步末尾集中輸出,以獲取更多的可用隱藏時間。同時針對某些CFD應用異步流水I/O隱藏時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論