版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 OpenMP多線程編程,主要內(nèi)容,OpenMP編程簡介 OpenMP多線程應用程序編程技術,1. OpenMP編程簡介,,1.1 OpenMP多線程編程發(fā)展概況,OpenMP是一種面向共享內(nèi)存多線程并行編程技術OpenMP具有良好的可移植性支持多種編程語言 Fortran C/C++支持多種平臺 www.openmp.org,,OpenMP最初是為共享內(nèi)存的多處理器系統(tǒng)設計的并行編程方法,這與通過消息傳遞進行并行編程
2、模型有很大的不同。,OpenMP的支持環(huán)境,Intel的C++和Fortran編譯器Microsoft的Visual Studio 2005gcc4.2以上版本,1.2 OpenMP多線程編程基礎,OpenMP的編程模型以線程為基礎,通過編譯制導語句來顯示地指導并行化 OpenMP的執(zhí)行模型采用Fork-Join的形式,在開始時,只有一個叫做主線程的運行線程存在;在運行過程中,當遇到需要進行并行計算的時候,派生出(Fork)線程來
3、執(zhí)行并行任務;在并行代碼結束執(zhí)行,派生線程退出或掛起,控制流程回到單獨的主線程中(Join),Fork-Join模型,并行區(qū)域,OpenMP的實現(xiàn),編譯制導語句(精髓)運行時庫函數(shù)環(huán)境變量,編譯制導語句,在編譯器編譯程序的時候,會識別特定的注釋,而這些注釋就包含著OpenMP程序的一些語義 在一個無法識別OpenMP語意的普通編譯器中,這些注釋會被當作普通的注釋而被忽略 在C/C++程序中,OpenMP所有編譯制導語句以#pra
4、gma omp開始,后面跟具體功能指令,編譯制導語句,,編譯制導語句,Directiveparallel, for, parallel for, section, sections, single, master, critical, flush, ordered, atomic,運行時庫函數(shù),OpenMP運行時函數(shù)庫主要用以設置和獲取執(zhí)行環(huán)境相關的信息,它們當中也包含一系列用以同步的API 運行時函數(shù)庫 “omp.h”omp
5、_get_thread_num() 返回當前線程的號碼,,通過編譯制導語句,可以將串行的程序逐步地改造成一個并行程序,達到增量更新程序的目的,減少程序編寫人員一定的負擔.串行程序和并行程序保持在同一個源代碼文件當中,減少了維護負擔.編譯制導語句,優(yōu)勢體現(xiàn)在編譯階段運行時庫函數(shù),支持運行時對并行環(huán)境的改變和優(yōu)化,1.3 編寫OpenMP程序的準備工作,當前的Visual Studio .Net 2005完全支持OpenMP 2.0
6、標準 通過新的編譯器選項 /openmp來支持OpenMP程序的編譯和鏈接,建立一個新的項目,配置項目屬性,設置環(huán)境變量,在OpenMP中,主要通過對循環(huán)或一段結構化代碼定義并行區(qū)域的方式來實現(xiàn)多線程并行。,#include "omp.h"int _tmain(int argc, _TCHAR* argv[]){printf("Hello from serial.\n");prin
7、tf("Thread number=%d\n",omp_get_thread_num());#pragma omp parallel{printf("Hello from parallel. Thread number=%d\n", omp_get_thread_num());}printf("Hello from serial again.\n");
8、getchar();return 0;},2. OpenMP多線程應用程序編程技術,,2.1 循環(huán)并行化,循環(huán)并行化是使用OpenMP來并行化程序的最重要的部分 在C/C++語言中,循環(huán)并行化語句的編譯制導語句格式如下: #pragma omp parallel for [clause[clause…]]for( i = first ; i<last ; i++) {body of the loop;},另
9、一種格式: #pragma omp parallel [clause[clause…]]{#pragma omp for [clause[clause…]]for( i = first ; i<last ; i++) {body of the loop;}}如果并行的線程需要在循環(huán)的開始,或結束時作些工作的話,就只能用parallel與for子句分離的版本。Parallel 將緊跟的程序塊擴展為若干完全等同
10、的并行區(qū)域,每個線程擁有完全相同的并行區(qū)域;For 將循環(huán)中工作分配到線程組中,線程組中的每一個線程完成循環(huán)中的一部分。子句用來控制編譯制導語句的具體行為。,循環(huán)并行化語句的限制,并行化的語句必須是for循環(huán)語句并具有規(guī)范格式 能夠推測出循環(huán)的次數(shù) for (index = start ; index < end ; increment_expr)在循環(huán)過程中不能使用break語句 不能使用goto和return語句從
11、循環(huán)中跳出 可以使用continue語句,簡單循環(huán)并行化,各個分量之間沒有數(shù)據(jù)相關性循環(huán)計算的過程也沒有循環(huán)依賴型,循環(huán)依賴性,循環(huán)迭代相關,循環(huán)迭代相關,,,循環(huán)分塊技術創(chuàng)建無循環(huán)迭代相關的循環(huán)m,,循環(huán)并行化編譯制導語句的子句,循環(huán)并行化子句可以包含一個或者多個子句來控制循環(huán)并行化的實際執(zhí)行 常見子句有:作用域子句(變量是共享的share還是私有的private)控制線程的調(diào)度(schedule )子句動態(tài)控制是否并行化
12、(if )子句進行同步的子句(ordered )子句控制變量在串行部分與并行部分傳遞(copyin )子句,循環(huán)嵌套,可以將嵌套循環(huán)的任意一個循環(huán)體進行并行化 循環(huán)并行化編譯指導語句可以加在任意一個循環(huán)之前,則對應的最近的循環(huán)語句被并行化,其它部分保持不變,,,,,控制數(shù)據(jù)的共享屬性,OpenMP程序在同一個共享內(nèi)存空間上執(zhí)行 可以任意使用這個共享內(nèi)存空間上的變量進行線程間的數(shù)據(jù)傳遞 OpenMP還允許線程保留自己的私有變量不
13、能讓其它線程訪問到,,分配在棧上的數(shù)據(jù)都是私有的全局變量及代碼是共享的動態(tài)分配的堆空間是共享的threadprivate指明某數(shù)據(jù)結構是私有的全局變量,控制數(shù)據(jù)的共享屬性,shared用來指示一個變量的作用域是共享的。privare用來指示一個變量的作用域是私有的。firstprivate對私有變量進行初始化,把串行變量值拷貝到私有變量中(線程開始)lastprivate對私有變量最后終結的操作,把私有變量拷貝到同名串行變量
14、中,使用作用域子句的一些規(guī)則,作用域子句中的變量是已經(jīng)聲明的有名變量 作用域子句在作用到類或者結構的時候,只能作用到類或者結構的整體,而不能只作用域類或者結構的一個部分 一個編譯指導語句能夠包含多個數(shù)據(jù)作用域子句作用域子句只能出現(xiàn)在編譯制導語句起作用的語句變量部分 默認情況下,并行區(qū)域中的所有變量是共享的,三種例外:parallel for 循環(huán)中,循環(huán)變量是私有的并行區(qū)域中的局部變量是私有的Private,firstpr
15、ivate,lastprivate,reduction子句列出的變量是私有的,,,規(guī)約操作的并行化,在規(guī)約操作中,會反復將一個二元運算符應用在一個變量和另外一個值上,并把結果保存在原變量中 在使用規(guī)約操作時,只需在變量前指明規(guī)約操作的類型以及規(guī)約的變量 # pragma omp parallel for private(arx,ary,n) reduction(+:a,b)for(i=0;i<n;i++){a=a+arx
16、[i];b=b+ary[i];},規(guī)約操作并行化的限制,能夠在OpenMP的C/C++語言中出現(xiàn)的規(guī)約操作,私有變量的初始化和終結操作,循環(huán)并行化開始的時候,私有變量具有主線程中的同名變量的值循環(huán)并行化后將私有變量返回給主線程中的同名變量firstprivate lastprivate,,,數(shù)據(jù)相關性與并行化操作,并不是所有的循環(huán)都能夠使用#pragma omp parallel for來進行并行化 必須要保證數(shù)據(jù)兩次循
17、環(huán)之間不存在數(shù)據(jù)相關性 數(shù)據(jù)相關性又被稱為數(shù)據(jù)競爭(Data Race) 當兩個線程對同一個變量進行操作,并且有一個操作為寫操作的時候,就說明這兩個線程存在數(shù)據(jù)競爭,,,2.2 并行區(qū)域編程,循環(huán)并行化實際上是并行區(qū)域編程的一個特例 并行區(qū)域簡單的說就是通過編譯制導語句使得一段代碼能夠在多個線程內(nèi)部同時執(zhí)行 并行區(qū)域編寫的格式如下:#pragma omp parallel [clause[clause]…]block,
18、parallel編譯制導語句的執(zhí)行過程,當程序遇到parallel編譯制導語句的時候,就會生成相應數(shù)目(根據(jù)環(huán)境變量)的線程組成一個線程組,并將代碼重復地在各個線程內(nèi)部執(zhí)行 parallel的末尾有一個隱含的同步屏障(barrier),所有線程完成所需的重復任務有,在這個同步屏障出會和(join),,,線程私有數(shù)據(jù)threadprivate,copyin,threadprivate指明(全局)變量是線程私有數(shù)據(jù)copyin對線程私有
19、的全局變量進行初始化,線程私有數(shù)據(jù)與threadprivate, copyin子句,,,工作隊列,工作隊列的基本工作過程:為維持一個工作的隊列,線程在并行執(zhí)行的時候,不斷從這個隊列中取出相應的工作完成,直到隊列為空為止,,,,,根據(jù)線程號分配任務,每一個線程在執(zhí)行的過程中的線程標識號是不同的,可以根據(jù)這個線程標識號來分配不同的任務 #pragma omp parallel private(myid){nthreads=omp_g
20、et_num_threads();myid=omp_get_thread_num();get_my_work_done(myid,nthreads);},使用循環(huán)語句分配任務,,工作分區(qū)編碼,,2.3 線程同步,OpenMP支持兩種不同類型的線程同步機制 :互斥鎖:可以用來保護一塊共享的存儲空間,使得每一次訪問這塊共享內(nèi)存空間的線程最多一個,保證了數(shù)據(jù)的完整性事件通知:這種機制保證了多個線程之間的執(zhí)行順序,數(shù)據(jù)競爭,,互斥鎖機
21、制,用來對一塊內(nèi)存進行保護OpenMP提供了三種不同的互斥鎖機制 :臨界區(qū)(critical)原子操作(atomic)由庫函數(shù)來提供同步操作(互斥函數(shù)),臨界區(qū)(critical),臨界區(qū)通過編譯指導語句對產(chǎn)生數(shù)據(jù)競爭的內(nèi)存變量進行保護 在程序需要訪問可能產(chǎn)生競爭的內(nèi)存數(shù)據(jù)的時候,都需要插入相應的臨界區(qū)代碼 #pragma omp critical [(name)]block在執(zhí)行上述的程序塊block之前,必須首先
22、要獲得臨界區(qū)的控制權,正整數(shù)組最大的元素,,原子操作,現(xiàn)代體系結構的多處理計算機提供了原子更新一個單一內(nèi)存單元的方法,提供了一種更高效率的互斥鎖機制。通過編譯制導可以調(diào)用上述方法#pragma omp atomicx ++,,,運行時庫函數(shù)的互斥鎖支持,,,,,,事件同步機制,鎖:維護一塊代碼或者一塊內(nèi)存的一致性;事件:用來控制代碼的執(zhí)行順序,使得某一部分代碼必須在其它的代碼執(zhí)行完畢之后才能執(zhí)行。OpenMP中的事件同步主
23、要包括:同步屏障(barrier)定序區(qū)段(ordered sections)主線程執(zhí)行(master),隱含的同步屏障(barrier),在每一個并行區(qū)域都會有一個隱含的同步屏障一個同步屏障要求所有的線程執(zhí)行到此屏障,然后才能夠繼續(xù)執(zhí)行下面的代碼 #pragma omp for,#pragma omp single, #pragma omp sections程序塊都包含自己的隱含的同步屏障 為了避免在循環(huán)過程中不必要的同步
24、屏障,可以增加nowait子句到相應的編譯指導語句中,,,明確的同步屏障語句,在有些情況下,隱含的同步屏障并不能提供有效的同步措施 程序員可以在需要的地方插入明確的同步屏障語句#pragma omp barrier 在并行區(qū)域的執(zhí)行過程中,所有的執(zhí)行線程都會在同步屏障語句上進行同步 #pragma omp parallel{initialization();#pragma omp barrierprocess();
25、},,,,,循環(huán)并行化中的順序語句(ordered),對于循環(huán)并行化中的某些處理需要規(guī)定執(zhí)行的順序 典型的情況:在一次循環(huán)的過程中一大部分的工作是可以并行執(zhí)行的,而其余的工作需要等到前面的工作全部完成之后才能夠執(zhí)行 在循環(huán)并行化的過程中,可以使用ordered子句使得順序執(zhí)行的語句直到前面的循環(huán)都執(zhí)行完畢之后再執(zhí)行,,,OpenMP任務調(diào)度,OpenMP中,任務調(diào)度主要用于并行的for循環(huán)中,當循環(huán)中每次迭代的計算量不相等時,如果
26、簡單地給各個線程分配相同次數(shù)的迭代的話,會造成各個線程計算負載不均衡,這會使得有些線程先執(zhí)行完,有些后執(zhí)行完,造成某些CPU核空閑,影響程序性能。,int i, j;int a[100][100] = {0};for ( i =0; i < 100; i++){for( j = i; j < 100; j++ ){ a[i][j] = i*j;}} 如果將最外層循環(huán)
27、并行化的話,比如使用4個線程,如果給每個線程平均分配25次循環(huán)迭代計算的話,顯然i=0和i=99的計算量相差了100倍,那么各個線程間可能出現(xiàn)較大的負載不平衡情況。,for循環(huán)并行化的任務調(diào)度方案,schedule子句的使用格式為:schedule(type[,size])type參數(shù)表示調(diào)度類型,有四種調(diào)度類型如下:· static· dynamic· guided·&
28、#160;runtime (實際上是根據(jù)環(huán)境變量來選擇前三種中的某中類型。)size參數(shù) (可選) size參數(shù)表示循環(huán)迭代次數(shù),size參數(shù)必須是整數(shù)。,靜態(tài)調(diào)度(static),當parallel for編譯制導語句沒有帶schedule子句時,大部分系統(tǒng)中默認采用static調(diào)度方式,這種調(diào)度方式非常簡單。假設有n次循環(huán)迭代,t個線程,那么給每個線程靜態(tài)分配大約n/t次迭代計算。不使用size參數(shù)時,分配給每個線程的是n/
29、t次連續(xù)的迭代,#pragma omp parallel for schedule(static) for(i = 0; i < 10; i++ ) { printf("i=%d, thread_id=%d\n", i, omp_get_t
30、hread_num());},i=0, thread_id=0i=1, thread_id=0i=2, thread_id=0i=3, thread_id=0i=4, thread_id=0i=5, thread_id=1i=6, thread_id=1i=7, thread_id=1i=8, thread_id=1i=9, thread_id=1可以看出線程0得到了0~4次連續(xù)迭代,線程1得到5~9次連續(xù)迭代。,
31、#pragma omp parallel for schedule(static, 2) for(i = 0; i < 10; i++ ) { printf("i=%d, thread_id=%d\n", i, omp_get_thread
32、_num());},i=0, thread_id=0i=1, thread_id=0i=4, thread_id=0i=5, thread_id=0i=8, thread_id=0i=9, thread_id=0i=2, thread_id=1i=3, thread_id=1i=6, thread_id=1i=7, thread_id=10、1次迭代分配給線程0,每個線程依次分配到2次連續(xù)的迭代計算。,動態(tài)調(diào)度(d
33、ynamic),動態(tài)調(diào)度是動態(tài)地將迭代分配到各個線程,動態(tài)調(diào)度可以使用size參數(shù)也可以不使用size參數(shù),不使用size參數(shù)時是將迭代逐個地分配到各個線程,使用size參數(shù)時,每次分配給線程的迭代次數(shù)為指定的size次。使用一個內(nèi)部任務隊列,采用先來先服務的方式進行調(diào)度。當某個線程閑下來,就為其分配一個循環(huán)塊。由此可見,動態(tài)策略可以極大地保證線程組的負載平衡,但是需要額外的開銷,不能達到最佳性能。,guided調(diào)度(guided),
34、guided調(diào)度是一種采用指導性的啟發(fā)式自調(diào)度方法。開始時每個線程會分配到較大的迭代塊,之后分配到的迭代塊會逐漸遞減。迭代塊的大小會按指數(shù)級下降到指定的size大小,如果沒有指定size參數(shù),那么迭代塊大小最小會降到1。,runtime調(diào)度(rumtime),runtime調(diào)度并不是和前面三種調(diào)度方式似的真實調(diào)度方式,它是在運行時根據(jù)環(huán)境變量OMP_SCHEDULE來確定調(diào)度類型 例如在unix系統(tǒng)中,可以使用setenv命令來設置O
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 拋物方程的區(qū)域分解并行算法.pdf
- 發(fā)展方程的并行GALERKIN區(qū)域分解方法.pdf
- 區(qū)域分解結合多層快速多極子并行技術.pdf
- 網(wǎng)格環(huán)境中區(qū)域混合交通流并行仿真研究.pdf
- 43443.形狀優(yōu)化問題的并行區(qū)域分解算法研究
- GPU上的顯著性區(qū)域檢測并行方法.pdf
- 43913.boussinesq方程的一種區(qū)域分解并行算法
- 基于CUDA平臺的區(qū)域分割并行算法設計與實現(xiàn).pdf
- 拋物問題的顯-隱有限差分區(qū)域分解并行算法.pdf
- 基于區(qū)域分解算法混凝土壩結構分析并行數(shù)值方法研究.pdf
- 時間依賴偏微分方程的區(qū)域分解并行算法.pdf
- 14471.基于并行虛擬區(qū)域方法的顆粒懸浮流直接數(shù)值模擬研究
- 蒙特卡羅粒子輸運的組合幾何區(qū)域分解并行算法研究與應用.pdf
- 47195.求解對流擴散問題的并行多水平帶約束平衡區(qū)域分解方法
- 65008.基于區(qū)域分解法的地下水耦合模型與并行模擬技術
- 基于MPI的分水嶺與區(qū)域合并結合算法的并行化研究.pdf
- fluent并行設置
- 并行 實驗一
- 并行工程特點
- 28181.基于非耦合區(qū)域分解的海量delaunay三角網(wǎng)并行構建算法研究
評論
0/150
提交評論