基于SIMD架構的信號處理算法性能優(yōu)化.pdf_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信號處理算法中存在很多數(shù)據相關度低且數(shù)據級并行度較大的核心算子,非常適合于通過單指令多數(shù)據(Single Instruction Multiple Data,SIMD)技術提升其計算效率。然而,當前向量化編譯器無法針對SIMD微結構進行有效的指令調度和存儲布局,難以充分發(fā)揮SIMD技術的優(yōu)勢。本文針對廣泛應用于通信、圖像及模式識別等領域的有限脈沖響應濾波器算法,通過SIMD向量化技術充分挖掘算法內部的并行度,提升算法性能,即減少算法的執(zhí)

2、行時間,同時為其它同類算法優(yōu)化課題研究提供參考依據。
  本文在詳細分析SIMD協(xié)處理器架構的基礎上,對算法進行SIMD映射和優(yōu)化。首先,利用向量化編譯器和編譯器內置接口函數(shù)對算法進行SIMD映射,并通過分析SIMD微結構數(shù)據和二進制可執(zhí)行文件的反匯編代碼定位算法性能瓶頸;然后,通過循環(huán)展開和軟件流水等方法提升SIMD計算流水線的指令級并行度,利用手工指令排布減少主處理器與SIMD協(xié)處理器之間的寄存器傳輸,并通過軟件預取技術降低訪

3、存開銷;最后,本文利用并行化編程模型完成算法的切割與映射,以有限的數(shù)據通信與同步開銷換取算法線程級的性能提升。
  基于時鐘周期精確的仿真平臺GEM5進行測試,結果表明:匯編優(yōu)化后的算法相對于向量化編譯和通用處理器算法代碼分別提升性能約1.5倍和20倍;相對于單核優(yōu)化,采用雙核、四核線程級并行處理分別進一步提升了算法性能1.87倍和3.67倍;與Ne10庫相比,匯編優(yōu)化后的算法可以達到0.9~3.5倍的加速比;與通用處理器代碼相比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論