空間統(tǒng)計分析_第1頁
已閱讀1頁,還剩151頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第七章 空間統(tǒng)計分析,統(tǒng)計分析是空間分析的主要手段,貫穿于空間分析的各個主要環(huán)節(jié)。空間統(tǒng)計分析方法不僅僅限于常規(guī)統(tǒng)計方法,還包括利用空間位置的空間自相關(guān)分析。本章主要介紹常用統(tǒng)計量、數(shù)據(jù)特征分析(即探索性數(shù)據(jù)分析)、分級統(tǒng)計分析、空間插值和空間回歸分析5方面內(nèi)容。,第一節(jié) 概述,1.1 基本概念 空間統(tǒng)計分析包括空間數(shù)據(jù)的統(tǒng)計分析及數(shù)據(jù)的空間統(tǒng)計分析??臻g數(shù)據(jù)的統(tǒng)計分析著重于空間物體和現(xiàn)象的非空間特性的統(tǒng)計分析,

2、而空間數(shù)據(jù)所描述的事物的空間位置在這些分析中不起制約作用。從這個意義上講,空間數(shù)據(jù)的統(tǒng)計分析在很多方面與一般的數(shù)據(jù)分析并無本質(zhì)差別,但是對于空間數(shù)據(jù)統(tǒng)計分析的結(jié)果的解釋則要依托與地理空間進行,在很多情況下,分析的結(jié)果是以地圖的方式描述和表達的。,數(shù)據(jù)的空間統(tǒng)計分析是直接從空間物體的空間位置、聯(lián)系等方面出發(fā),研究既具有隨機性又具有結(jié)構(gòu)性,或具有空間相關(guān)性和依賴性的自然現(xiàn)象。 數(shù)據(jù)的空間統(tǒng)計分析,其核心就是認識與地理位置相關(guān)的數(shù)

3、據(jù)間的空間依賴、空間關(guān)聯(lián)或空間自相關(guān),通過空間位置建立數(shù)據(jù)間的統(tǒng)計關(guān)系。 空間統(tǒng)計分析的任務就是運用有關(guān)的統(tǒng)計分析方法,建立空間統(tǒng)計模型,從凌亂的數(shù)據(jù)中挖掘空間自相關(guān)和空間變異規(guī)律。,數(shù)據(jù)的空間統(tǒng)計分析與經(jīng)典統(tǒng)計分析方法的關(guān)系,共同點:都是在大量采樣的基礎上,通過對樣本的屬性值的頻率分布、均值、方差等關(guān)系及其相應規(guī)則分析,確定其空間分布格局與相關(guān)關(guān)系。不同點:數(shù)據(jù)的空間統(tǒng)計分析既考慮到樣本的大小,又重視樣本空

4、間位置及樣本間的距離??臻g數(shù)據(jù)具有空間依賴性(空間自相關(guān))和空間異質(zhì)性,扭曲了經(jīng)典統(tǒng)計分析的假設條件,使得經(jīng)典統(tǒng)計分析對空間數(shù)據(jù)的分析會產(chǎn)生虛假的解釋。經(jīng)典統(tǒng)計分析模型是在觀測結(jié)果相互獨立的假設基礎上建立的,但實際上地理現(xiàn)象之間大都不具有獨立性。數(shù)據(jù)的空間統(tǒng)計學研究的基礎是空間對象間的相關(guān)性和異質(zhì)性,它們與距離有關(guān),并隨距離的增加而變化。這些問題為經(jīng)典統(tǒng)計學所忽視,卻成為數(shù)據(jù)空間統(tǒng)計分析的核心。,注意:在使用任何統(tǒng)計分析分析方法分析和空

5、間位置有關(guān)的數(shù)據(jù)之前,我們都必須先測度和檢驗空間自相關(guān)的顯著性。 這是因為如果所研究的空間數(shù)據(jù)具有空間自相關(guān)性,那么觀測樣本可能會包含相似的信息,從而導致有效樣本容量的減小。相似或者自相關(guān)的觀測單位會使變量間的關(guān)系重復或被夸大。,第二節(jié) 基本統(tǒng)計量,2.1 代表數(shù)據(jù)集中趨勢的統(tǒng)計量 代表數(shù)據(jù)集中趨勢的統(tǒng)計量包括平均數(shù)、中位數(shù)、眾數(shù),它們都可以用來表示數(shù)據(jù)的分布位置和一般水平。,描述地理數(shù)據(jù)一般水平

6、指標的選擇當數(shù)據(jù)為對稱分布或接近對稱分布時,應選擇平均數(shù)作為集中趨勢的代表值,因為此時均值與眾數(shù)、中位數(shù)的差異很小,而且平均數(shù)綜合考慮了全部數(shù)據(jù),具有很好的代表性。當數(shù)據(jù)呈偏態(tài)分布時,由于均值考慮了所有觀察值,因此容易受極端數(shù)值的影響,而眾數(shù)又缺乏良好的數(shù)學性質(zhì),依分組求得的眾數(shù)不夠精確,所以此時多選用中位數(shù)作為描述集中性趨勢的統(tǒng)計量。當變量為名義尺度數(shù)據(jù)時通常只能用眾數(shù)來描述集中趨勢。,2.2 代表數(shù)據(jù)離散程度的統(tǒng)計量

7、 代表數(shù)據(jù)離散程度的統(tǒng)計量包括最大值、最小值、分位數(shù)、極差、離差、平均離差、離差平方和、方差、標準差、變差系數(shù)等。 離散程度越大,數(shù)據(jù)波動性越大,以小樣本數(shù)據(jù)代表數(shù)據(jù)總體的可靠性越低。,2.3 代表數(shù)據(jù)分布形態(tài)的統(tǒng)計量 代表數(shù)據(jù)離散程度的統(tǒng)計量主要有 偏度系數(shù)和峰度系數(shù)。,圖1 偏度系數(shù)的三種情形,正偏態(tài),負偏態(tài),正態(tài),圖2 標準峰度系數(shù)的三種情形,第三節(jié) 探索性數(shù)據(jù)分析,探索性數(shù)據(jù)分析首先分析出

8、數(shù)據(jù)的模式和特點,再根據(jù)數(shù)據(jù)特點選擇合適的模型。探索性數(shù)據(jù)分析還可以用來揭示數(shù)據(jù)對于常見模型的意想不到的偏離。,3.1 基本分析工具,直方圖 : SPSS, ARCGISQQplot分布圖 : SPSS, ARCGISVoronoi圖 : ARCGIS方差變異分析工具: GS+3.0,1 用直方圖檢驗數(shù)據(jù)的分布 1)在ArcMap目錄表中單擊需要進行數(shù)據(jù)檢測分析的點要素層。 2)單擊G

9、eostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊Histogram,2 用QQPlot圖檢驗數(shù)據(jù)的分布 1)Normal QQplot檢驗數(shù)據(jù)是否符合正態(tài)分布:單擊Geostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊Normal QQplot 2) general QQplot 評估兩個數(shù)據(jù)集分布的相似性:單擊Geostatistical A

10、nalyst模塊的下拉箭頭選擇Explore Data并單擊general QQplot,3 Voronoi圖 單擊Geostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊Voronoi圖。Voronoi圖中多邊形值的幾種分配方式和計算方法(見課本273頁),使用ARCGIS進行探索性數(shù)據(jù)分析,半變異函數(shù)和協(xié)方差函數(shù)把統(tǒng)計相關(guān)系數(shù)的大小作為一個距離的函數(shù),如果分別以h為橫坐標,變異

11、函數(shù)γ(0) 或協(xié)方差函數(shù) C(h)為縱坐標,就得到了變異函數(shù)曲線圖和協(xié)方差函數(shù)圖:,4 方差變異分析,協(xié)方差函數(shù)和半變異函數(shù)隨著距離的加大基本呈反向變化特征,它們之間的近似關(guān)系表達式為:,變異函數(shù)曲線圖和協(xié)方差函數(shù)圖反應了采樣點與其相鄰采樣點的空間關(guān)系,同時還能給出這種空間相關(guān)的范圍,對異常采樣點有很好的探測作用。我們通常選擇半變異函數(shù)圖來描述地理數(shù)據(jù)的空間變異特征。,在半變異曲線圖中有兩個非常重要的點:間隔為0時的點和半變異函數(shù)趨近

12、平穩(wěn)時的拐點,由這兩個點產(chǎn)生四個相應的參數(shù):塊金值(Nugget)、變程(Range)、基臺值(Sill)、偏基臺值(Partial Sill),變異函數(shù)的參數(shù)。,※ 理論上,當采樣點間的距離為0時,半變異函數(shù)值應為0,但由于存在測量誤差和空間變異,使得兩采樣點非常接近時,它們的半變異函數(shù)值不為0,即存在塊金值。測量誤差是儀器內(nèi)在誤差引起的,空間變異是自然現(xiàn)象在一定空間范圍內(nèi)的變化。它們?nèi)我庖环交騼烧吖餐饔卯a(chǎn)生了塊金值。,

13、塊金值(Nugget):當間隔距離h=0時,γ(0)= C0,該值稱為塊金值或塊金方差(nugget variance)。,※ 當半變異函數(shù)值超過基臺值時,即函數(shù)值不隨采樣點間隔距離而改變時,空間相關(guān)性不存在。,基臺值(Sill):當采樣點間的距離h增大時,半變異函數(shù)從初始的塊金值達到一個相對穩(wěn)定的常數(shù)時,該常數(shù)值稱為基臺值。 sill=C0+C偏基臺值(Partial Sill):基臺值與塊金值的差值: partia

14、l sill=C,※ 在變程范圍內(nèi),樣點間的距離越小,其相似性,即空間相關(guān)性越大。當h>R時,區(qū)域化變量Z(x)的空間相關(guān)性不存在,即當某點與已知點的距離大于變程時,該點數(shù)據(jù)不能用于內(nèi)插或外推。,變程(Range):當半變異函數(shù)的取值由初始的塊金值達到基臺值時,采樣點的間隔距離稱為變程。變程表示了在某種觀測尺度下,空間相關(guān)性的作用范圍,其大小受觀測尺度 的限定。,3.2 檢驗數(shù)據(jù)分布,空間統(tǒng)計分析中檢驗數(shù)據(jù)分布的意義和主

15、要方法: 在空間統(tǒng)計分析中,許多統(tǒng)計分析模型,如地統(tǒng)計分析,都是建立在平穩(wěn)假設的基礎上的,這種假設一定程度上要求所有數(shù)據(jù)具有相同的變異性。另外,克里金插值都假設數(shù)據(jù)服從正態(tài)分布。如果數(shù)據(jù)不服從正態(tài)分布,需要進行一定的數(shù)據(jù)變換,從而使其服從正態(tài)分布。因此在進行地統(tǒng)計分析之前,檢驗數(shù)據(jù)分布特征,了解和認識數(shù)據(jù)具有非常重要的意義。 數(shù)據(jù)的檢驗可以通過直方圖和Normal QQplot圖來完成。,3.3 尋

16、找數(shù)據(jù)離群值,概念:全局離群值:局部離群值: 離群值的出現(xiàn)可能是真實異常值,也可能是由于不正確的測量或記錄引起的。如果是真實異常值,這個點可能就是研究和理解這個現(xiàn)象的最重要的點。反之,如果它是由于測量或數(shù)據(jù)輸入的明顯錯誤引起的,在生成表面之前,應對它們進行修正或剔除。,尋找離群值的主要方式:利用直方圖查找離群值用半變異/協(xié)方差函數(shù)云圖識別離群值用Voronoi圖查找局部離群值,3.4 全局趨勢分析,全局趨

17、勢(空間趨勢)反映了空間物體在空間區(qū)域上的變化的主題特征,它主要揭示了空間物體的總體規(guī)律,而忽略局部變異。趨勢面分析 單擊Geostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊trend anlysis。,,,3.5 空間自相關(guān)分析,(一)全局空間自相關(guān) 全局空間自相關(guān)系數(shù)反映的是研究區(qū)域內(nèi)所有區(qū)域單元的整體空間關(guān)系。Moran指數(shù)和Geary系數(shù)是最常用的兩種

18、測度全局自相關(guān)的指標。,,,如果是位置(區(qū)域)的觀測值,則該變量的全局Moran指數(shù)I,用如下公式計算 式中: I 為Moran指數(shù);Wij為權(quán)重系數(shù),,,,,;,Moran’s I,Geary 系數(shù)C計算公式如下 式中:C為Geary系數(shù);其他變量同上式。,,,,,,Geary’s C,Moran’s I和Geary’s C 計算公式中的大部分項都可以直接根據(jù)點的屬性值來計算,唯一無法根據(jù)屬性值計算的是表示i與j之間

19、空間接近度的權(quán)重系數(shù)Wij。 接下來我們就來看一下空間權(quán)重系數(shù)Wij的確定,通常定義一個二元對稱空間權(quán)重矩陣W,來表達n個位置的空間區(qū)域的鄰近關(guān)系,其形式如下式中:Wij表示區(qū)域i與j的臨近關(guān)系,它可以根據(jù)鄰接標準或距離標準來度量。,空間權(quán)重矩陣,①簡單的二進制鄰接矩陣②基于距離的二進制空間權(quán)重矩陣,常用的確定空間權(quán)重矩陣的規(guī)則,,,反距離權(quán)重系數(shù):假定隨著兩點之間距離的增加,它們之間關(guān)系的重要性會出現(xiàn)線性遞減。,常

20、用的確定空間權(quán)重矩陣的規(guī)則(補充),,,常用的確定空間權(quán)重矩陣的規(guī)則(補充),而 只體現(xiàn)了線性遞減關(guān)系,當相關(guān)性隨距離呈現(xiàn)非線性遞減關(guān)系時則需引入?yún)?shù)α。上式改造為: α=2廣泛適用于許多地理現(xiàn)象。,,,Moran’s I和Geary’s C 的取值區(qū)間,標注: E(I)= -1/n-1,n表示區(qū)域單元總數(shù)(樣本總數(shù)),需要指出的是,Geary’s 比率的取值區(qū)間與相關(guān)系數(shù)的傳統(tǒng)取值范圍(-1,1)

21、不符,而Moran’s I的取值區(qū)間更加接近于傳統(tǒng)相關(guān)性指標的取值范圍。但需要注意的是:不存在空間自相關(guān)時, Moran’s I的值不是0,而是E(I)從某些實證研究的結(jié)果來看, Moran’s I的取值范圍并不局限于(-1,1),尤其是上限并不局限于1。,Moran’s I的期望值E(I)始終為負,其大小與區(qū)域單元個數(shù)n有關(guān)。當區(qū)域單元的數(shù)量n越多時, Moran’s I的期望值E(I)就越接近于0;當n較小時,Moran’s I

22、的期望值E(I)是個絕對值較大的負值。 因此當n較小時,負的Moran’s I未必意味著負的空間自相關(guān)或分散模式。,空間自相關(guān)指標的顯著性檢驗,空間自相關(guān)指標的顯著性檢驗是通過標準化Z值來實現(xiàn)的。 Moran’s I的顯著性檢驗為:,式中E(I)=1/n-1;,VARN(I)為自由抽樣方差;非自由抽樣的方差另有公式,在此不做介紹了。參考《ArcView GIS 與 ArcGIS地理信息系

23、統(tǒng)統(tǒng)計分析》,Geary’s C的顯著性檢驗Z值公式為:,式中E(C)=1;其他參數(shù)的公式不做詳述。參考《ArcView GIS 與 ArcGIS地理信息系統(tǒng)統(tǒng)計分析》,補充:假設檢驗,假設檢驗是根據(jù)樣本的信息來判斷總體分布是否具有指定的特征,在管理方面有時稱之為古典決策。在數(shù)理統(tǒng)計中,把需要用樣本判斷正確與否的命題稱為一個假設。根據(jù)研究目的提出的假設稱為原假設,記為H0;其對立面假設稱為備擇假設(或?qū)α⒓僭O),記為H1。提出假設之后,

24、要用適當?shù)慕y(tǒng)計方法決定是否接受假設,稱為假設檢驗或統(tǒng)計假設檢驗。,根據(jù)研究目的提出的假設稱為原假設,記為H0;其對立面假設稱為備擇假設(或?qū)α⒓僭O),記為H1。設立零假設H0的目的通常是為了在有足夠證據(jù)時拒絕它;提出假設之后,要用適當?shù)慕y(tǒng)計方法決定是否接受假設,稱為假設檢驗或統(tǒng)計假設檢驗。,假設檢驗的基本步驟,一般來說,假設檢驗需要經(jīng)過以下操作步驟:(1)構(gòu)造假設。(2)確定檢驗的統(tǒng)計量及其分布。(3)確定顯著性水平。(4)確

25、定決策規(guī)則。(5)判斷決策。,Z檢驗的拒絕與接受域,,(1)構(gòu)造零假設H0。代表區(qū)域單元間不存在空間自相關(guān)關(guān)系。(2)確定檢驗的統(tǒng)計量及其分布。這里的標準化Z值就是假設檢驗的統(tǒng)計量。,空間自相關(guān)系數(shù)顯著性檢驗,上圖中橫軸為Z值,縱軸代表置信水平α或顯著性水平 1-α 。陰影部分代表拒絕域,空白部分代表接受域。,Z值檢驗,一般的,如果確定了置信水平α,則Z值的接受域和拒絕域的范圍也就被唯一的確定了。,常用的置信水平α下,Z值的接受域的

26、范圍,Z值為正且顯著時,表明存在正的空間自相關(guān),也就是說相似的觀測值(高值或者低值)趨于空間集聚;當Z為負且顯著時,表明存在負的空間自相關(guān),相似的觀測值趨于分散分布;當Z值為零時,觀測值呈現(xiàn)隨機分布。,Moran’s I和Geary’s C 具有一些相同的特征,兩者都是以研究區(qū)域內(nèi)相鄰區(qū)域單元屬性值的比較為基礎的,但是它們的統(tǒng)計性質(zhì)有所不同。大部分的分析人員喜歡使用Moran’s I,這主要是因為Moran’s I的數(shù)值分布特征比Gea

27、ry’s C更理想。,小結(jié),如果進一步考慮到是否存在觀測值的高值或低值的局部空間集聚,哪個區(qū)域單元對于全局空間自相關(guān)的貢獻更大,以及在多大程度上空間自相關(guān)的全局評估掩蓋了反常的局部狀況或小范圍的局部不穩(wěn)定性時,因此需要局部空間自相關(guān)指標對研究區(qū)域進行分析。,,,(二)局部空間自相關(guān)(選學),局部空間自相關(guān)分析方法包括3種:空間聯(lián)系的局部指標(LISA) ; G統(tǒng)計量 ;Moran散點圖。,1 空間聯(lián)系的局部指標(LISA),空間聯(lián)

28、系的局部指標(local indicators of spatial association ,縮寫為LISA)滿足下列兩個條件:(1)每個區(qū)域單元的LISA,是描述該區(qū)域單元周圍顯著的相似值區(qū)域單元之間空間集聚程度的指標(2)所有區(qū)域單元LISA的總和與全局的空間聯(lián)系指標成比例。,,,,,,,,局部Moran指數(shù),這里需要注意的是Wij 通常指的是行標準化矩陣(也稱為隨機權(quán)重矩陣),但也可以是其他類型的空間權(quán)重矩陣。行標準化矩陣可

29、以通過二元連接矩陣獲得。,,,,局部Moran指數(shù)檢驗的標準化統(tǒng)計量為,,,,,,E(I)= -Wi /n-1;VAR(I i)公式參見《ArcView GIS 與 ArcGIS地理信息系統(tǒng)統(tǒng)計分析》——戴維.W.S.黃(David W.S.Wong)&杰.李(jay lee),G統(tǒng)計量,全局G統(tǒng)計量的計算公式為對每一個區(qū)域單元的統(tǒng)計量為,對統(tǒng)計量的檢驗與局部Moran指數(shù)相似,其檢驗值為 與Moran指數(shù)只能發(fā)現(xiàn)

30、相似值(正關(guān)聯(lián))或非相似性觀測值(負關(guān)聯(lián))的空間集聚模式相比,具有能夠探測出區(qū)域單元屬于高值集聚還是低值集聚的空間分布模式。,,G統(tǒng)計量Z值的含義,,,,,,,Moran散點圖,以(Wz,z)為坐標點的Moran散點圖,常來研究局部的空間不穩(wěn)定性,它對空間滯后因子Wz和z數(shù)據(jù)對進行了可視化的二維圖示。 全局Moran指數(shù),可以看作是Wz對于z的線性回歸系數(shù),對界外值以及對Moran指數(shù)具有強烈影響的區(qū)域單元,可通

31、過標準回歸來診斷出。 由于數(shù)據(jù)對(Wz,z)經(jīng)過了標準化,因此界外值可易由2-sigma規(guī)則可視化地識別出來。,Moran散點圖的4個象限,分別對應于區(qū)域單元與其鄰居之間4種類型的局部空間聯(lián)系形式: 第1象限代表了高觀測值的區(qū)域單元被同是高值的區(qū)域所包圍的空間聯(lián)系形式; 第2象限代表了低觀測值的區(qū)域單元被高值的區(qū)域所包圍的空間聯(lián)系形式; 第3象限代表了低觀測值的區(qū)域單元被同是低值的區(qū)域所包

32、圍的空間聯(lián)系形式; 第4象限代表了高觀測值的區(qū)域單元被低值的區(qū)域所包圍的空間聯(lián)系形式。,,,,,,,與局部Moran指數(shù)相比,其重要的優(yōu)勢在于能夠進一步具體區(qū)分區(qū)域單元和其鄰居之間屬于高值和高值、低值和低值、高值和低值、低值和高值之中的哪種空間聯(lián)系形式。 并且,對應于Moran散點圖的不同象限,可識別出空間分布中存在著哪幾種不同的實體。 將Moran散點圖與LISA顯著性水平相結(jié)合,也可以得到所謂的“

33、Moran顯著性水平圖”,圖中顯示出顯著的LISA區(qū)域,并分別標識出對應于Moran散點圖中不同象限的相應區(qū)域。,應用實例,中國大陸30個省級行政區(qū)人均GDP的空間關(guān)聯(lián)分析。根據(jù)各?。ㄖ陛犑小⒆灾螀^(qū))之間的鄰接關(guān)系,采用二進制鄰接權(quán)重矩陣,選取各?。ㄖ陛犑?、自治區(qū))1998—2002年人均GDP的自然對數(shù),依照公式計算全局Moran指數(shù)I,計算其檢驗的標準化統(tǒng)計量Z(I),結(jié)果如下表所示。,,從表中可以看出,在1998—2002年期間,

34、中國大陸30個省級行政區(qū)人均GDP的全局Moran指數(shù)均為正值;在正態(tài)分布假設之上,對Moran指數(shù)檢驗的結(jié)果也高度顯著。這就是說,在1998—2002年期間,中國大陸30個省級行政區(qū)人均GDP存在著顯著的、正的空間自相關(guān),也就是說各省級行政區(qū)人均GDP水平的空間分布并非表現(xiàn)出完全的隨機性,而是表現(xiàn)出相似值之間的空間集聚,其空間聯(lián)系的特征是:較高人均GDP水平的省級行政區(qū)相對地趨于和較高人均GDP水平的省級行政區(qū)相鄰,或者較低人均GDP

35、水平的省級行政區(qū)相對地趨于和較低人均GDP水平的省級行政區(qū)相鄰。,,,,選取2001年我國30個省級行政區(qū)人均GDP數(shù)據(jù),計算局部Gi統(tǒng)計量和局部Gi統(tǒng)計量的檢驗值Z(Gi),并繪制統(tǒng)計地圖如下。,,檢驗結(jié)果表明,貴州、四川、云南西部3省的Z值在0.05的顯著性水平下顯著,重慶的Z值在0.1的顯著性水平下顯著,該4省市在空間上相連成片分布,而且從統(tǒng)計學意義上來說,與該區(qū)域相鄰的省區(qū),其人均GDP趨于為同樣是人均GDP低值的省區(qū)所包圍。由

36、此形成人均GDP低值與低值的空間集聚,據(jù)此可認識到西部落后省區(qū)趨于空間集聚的分布特征。,東部的江蘇、上海、浙江三省市的Z值在0.05的顯著性水平下顯著,天津的Z值在0.1的顯著性水平下顯著。而東部上海、江浙等發(fā)達省市趨于為一些相鄰經(jīng)濟發(fā)展水平相對較高的省份所包圍,東部發(fā)達地區(qū)的空間集聚分布特征也顯現(xiàn)出來。,以(Wz,z)為坐標,進一步繪制Moran散點圖 可以發(fā)現(xiàn),多數(shù)?。ㄖ陛犑?、自治區(qū))位于第1和第3象限內(nèi),為正的

37、空間聯(lián)系,屬于低低集聚和高高集聚類型,而且位于第3象限內(nèi)的低低集聚類型的?。ㄖ陛犑?、自治區(qū))比位于第1象限內(nèi)的高高集聚類型的?。ㄖ陛犑?、自治區(qū))更多一些。,,,,,,,,,,,,,,上圖進一步顯示了30個省級行政區(qū)人均GDP局部集聚的空間結(jié)構(gòu)??梢钥闯?,從人均GDP水平相對地來看: 高值被高值包圍的高高集聚省(直轄市)有:北京、天津、河南、安徽、湖北、江西、海南、廣東、福建、浙江、山東、上海、江蘇; 低值被低值包

38、圍的低低集聚?。ㄗ灾螀^(qū))有:黑龍江、內(nèi)蒙古、新疆、吉林、甘肅、山西、陜西、青海、西藏、四川、云南、遼寧、貴州; 被低值包圍的高值省(直轄市)有:重慶、廣西、河北;被高值包圍的低值省份只有湖南。,第四節(jié) 分級統(tǒng)計分析,4.1 分級的概念和目的 數(shù)據(jù)分級是根據(jù)一定的方法和標準把數(shù)據(jù)分成不同的級別,也就是把一個數(shù)據(jù)集劃分為不同的子集,在此過程中,還可以設置分級精度和分級數(shù)目等。 數(shù)據(jù)分級之后,僅

39、使原來的數(shù)據(jù)重新歸類,數(shù)據(jù)的屬性沒有發(fā)生改變,研究人員可以利用分級后的數(shù)據(jù)進行下一步的應用分析。,數(shù)據(jù)分級的目的: 數(shù)據(jù)分級的根本目的在于區(qū)分數(shù)據(jù)集中個體的差別,分級統(tǒng)計的過程就是區(qū)別個體性質(zhì)的過程。分級的應用目的有兩點: 一是為了分級后,圖面制圖效果好,有利于讀圖;二是用不同的分級方法來突出顯示制圖區(qū)域內(nèi)不同地貌特征。,4.2 分級的原則,科學性原則完整性原則適用性原則美觀性原則,4.3 分級統(tǒng)計的方法,按使

40、用分級方法的多少分為單一分級法和復合分級法;按級差是否相等分為等值分級法和不等值分級法;按確定級差的方法可以分為自定義分級法和模式分級法。 模式分級法主要有:等間距分級,分位數(shù)分級、等面積分級、標準差分級、自然裂點法分級等。,等間距分級 等間距分級原理簡單易于操作,但當數(shù)據(jù)集中在某一小范圍內(nèi)時,各分級之間數(shù)據(jù)個數(shù)的差別太大時會造成圖面配置不均衡,影響制圖效果。,分位數(shù)分級 該方法是把數(shù)列劃分為相等個

41、數(shù)的分段,根據(jù)實際需要選擇四分位、五分位等。處在分位數(shù)上的值作為分級值。分位數(shù)分級可以使每一級別的數(shù)據(jù)個數(shù)接近一致,往往能產(chǎn)生較好的制圖效果。,等面積分級 這種方法的特點是只反映各級占有相同的面積,制圖效果好,但沒有充分利用圖面表示級間差異。而對于柵格數(shù)據(jù)而言,一定區(qū)域內(nèi)的面積可由該區(qū)域的柵格個數(shù)乘以柵格分辨率得到,所以按等面積分級只需考慮柵格個數(shù)即可。對于柵格數(shù)據(jù)等面積分級法與分位數(shù)分級法得到的結(jié)果基本上是一致的。,標準差

42、分級 標準差分級首先要保證數(shù)據(jù)的分布具有正態(tài)分布規(guī)律。以算術(shù)平均值作為中間級別的一個分界點,其他分界點是以平均值為中心向兩側(cè)分別遞增或遞減標準差的倍數(shù)。,自然裂點法分級 任何統(tǒng)計數(shù)列都存在一些自然轉(zhuǎn)折點、特征點,用這些點可以把研究的對象分成性質(zhì)相似的群組,因此,裂點本身就是分級的良好界限。 自然裂點法基本上是基于讓各級別的變異綜合達到最小的原則來選擇分級斷點的。,其他模式

43、分級法:如有規(guī)律的不等間距分級法、按嵌套平均值分級、按面積正態(tài)分布分級等,由已知探索未知是一些科學研究的基礎和最終目的,地理研究也同樣如此,地理數(shù)據(jù)的一個重要特性就是數(shù)據(jù)量特別大,不可能獲取某個區(qū)域的所有研究數(shù)據(jù),因此需要采用某種方法根據(jù)已獲取的數(shù)據(jù)來推算出未知的數(shù)據(jù)。 地理學中可能遇到的問題: (1)了解北京大氣質(zhì)量宏觀分布 (2)了解我國某個地區(qū)的氣候狀況 (3)某觀測站因意外存在缺測、漏

44、測,第五節(jié) 空間插值,一、空間插值的概念,空間插值: 是進行數(shù)據(jù)外推的基本方法。或句話說空間插值是一種由已知來推知未知的一種空間分析方法。,已知數(shù)據(jù),函數(shù)關(guān)系式,,,未知數(shù)據(jù),空間插值的理論依據(jù),Tobler地理學第一定律(Waldo Tobler,1979)——鄰近的區(qū)域比距離遠的區(qū)域更相似。 地理數(shù)據(jù)的空間位置引起了兩類空間效應,即空間依賴和空間異質(zhì)(Anlisen L,1992),它們是地理空間的一般特性,反

45、映了地理要素的空間分布規(guī)律。 空間依賴是空間插值研究的基本假設前提 空間異質(zhì)是空間插值研究的隱含前提,空間依賴:空間依賴也稱為空間相關(guān)或空間關(guān)聯(lián),是空間相互作用的結(jié)果,它包括地理要素的空間自相關(guān)、空間異相關(guān)與空間秩相關(guān)三個方面。,空間自相關(guān)——指地理要素自身在空間分布上的相關(guān),直接遵循Tobler地理學第一定律(Waldo Tobler,1979),根據(jù)這一定律,“任何事物都和其它事物相聯(lián)系,距離近的事物相關(guān)程度要比距離遠的事物高”

46、; 空間異相關(guān)——是不同的地理要素間在空間分布上的相關(guān); 空間秩相關(guān)——可看成空間異相關(guān)的一種特例,指地理要素間在空間分布上表現(xiàn)為序列相關(guān)(周國法,1998),已有某研究區(qū)的某項數(shù)據(jù),根據(jù)這些觀測數(shù)據(jù)來估算研究區(qū)內(nèi)位置點的數(shù)值的過程叫做內(nèi)插。而估算研究區(qū)外未知點的數(shù)據(jù)值得過程叫做外推。,空間插值的適用范圍,現(xiàn)有離散曲面的分辨率、像元大小或方向與所要求不符的情況,需要重新插值?,F(xiàn)有連續(xù)曲面的數(shù)據(jù)模型與所需的數(shù)據(jù)模型不符,需要重新插

47、值。如從TIN模型到柵格數(shù)據(jù)模型、柵格到TIN模型現(xiàn)有數(shù)據(jù)不能完全覆蓋所要求的區(qū)域范圍,需要插值。,空間插值最常用的數(shù)據(jù)源來自野外測量采樣數(shù)據(jù),其中應用最為廣泛的就是通過離散的采樣點數(shù)據(jù)插值,這些采樣點在空間和時間上都是不規(guī)則分布的,其數(shù)據(jù)獲取和量測基本上都以點數(shù)據(jù)的模式給出,空間插值用于將這些離散點的測量數(shù)據(jù)轉(zhuǎn)換為連續(xù)的數(shù)據(jù)曲面,以便與其他的空間現(xiàn)象分布模式進行比較。,,,,各種不同的采樣方式,,,,,應用舉例,高程DEM氣象數(shù)據(jù)

48、(氣溫、降水、蒸發(fā)量等)人口密度環(huán)境指標(噪聲污染) ……,DEMO,,空間插值方法可以分為整體插值和局部插值方法兩類。整體插值方法用研究區(qū)所有采樣點的數(shù)據(jù)進行全區(qū)特征擬合。局部插值方法是僅僅用鄰近的數(shù)據(jù)點來估計未知點的值。,,,,空間插值方法,精確插值和近似插值,精確插值:產(chǎn)生通過所有觀測點的曲面。 這意味著在精確插值中,插值點落在觀測點上,內(nèi)插值等于估計值。近似插值:插值產(chǎn)生的曲面不通過所有觀測點。

49、 當數(shù)據(jù)存在不確定性時,應該使用近似插值,由于估計值替代了已知變量值,近似插值可以平滑采樣誤差。,整體插值方法,邊界內(nèi)插方法 邊界內(nèi)插方法假設任何重要的變化發(fā)生在邊界上,邊界內(nèi)的變化是均勻的,同質(zhì)的,即在各個方向上是相同的。這種概念模型經(jīng)常用于土壤和景觀制圖,可以通過定義“均質(zhì)的”土壤單元,景觀圖斑,來表達其他的土壤、景觀特征屬性。 邊界內(nèi)插方法最簡單的統(tǒng)計模型是標準方差分析(ANOVAR)模型,邊界內(nèi)插

50、方法的理論假設:屬性值z在圖斑或景觀單元內(nèi)是隨機變化的,不是有規(guī)律的統(tǒng)一類別的所有圖斑存在同樣的類方差所有屬性值符合正態(tài)分布所有的空間變化發(fā)生在邊界上,是突變而不是漸變 在使用邊界內(nèi)插時,應仔細考慮數(shù)據(jù)源是否符合這些理論假設。,趨勢面分析,空間趨勢反映了空間物體在空間區(qū)域上變化的主體特征,它主要揭示了空間物體的總體規(guī)律,而忽略局部的變異。趨勢面分析是根據(jù)空間抽樣數(shù)據(jù),擬合一個數(shù)學曲面,用該數(shù)學曲面來反映空間

51、分布的變化情況。 理論假設:地理坐標是獨立變量;屬性值z也是獨立變量且符合正態(tài)分布;同樣回歸誤差也是與位置無關(guān)的獨立變量。,用來計算趨勢面的數(shù)學方程式有多項式函數(shù)和傅立葉級數(shù),其中最為常用的是多項式函數(shù)形式。因為任何一個函數(shù)都可以在一個適當?shù)姆秶鷥?nèi)用多項式來逼近,而且調(diào)整多項式的次數(shù),可使所求的回歸方程適合實際問題的需要。 注意:并不是多項式的次數(shù)越高擬合的效果越好,多項式趨勢面的形式 ① 一

52、次趨勢面模型 ② 二次趨勢面模型 ③ 三次趨勢面模型,,,,(3.6.2),(3.6.3),(3.6.4),需要注意的是,在實際應用中,往往用次數(shù)低的趨勢面逼近變化比較小的地理要素數(shù)據(jù),用次數(shù)高的趨勢面逼近起伏變化比較復雜的地理要素數(shù)據(jù)。次數(shù)低的趨勢面使用起來比較方便,但具體到某點擬合較差;次數(shù)較高的趨勢面只在觀測點附近效果較好,而在外推和內(nèi)插時則效果較差。,趨勢面分析應用實例,某流域1月份降水量與各觀測

53、點的坐標位置數(shù)據(jù)如表3.6.2所示。下面,我們以降水量為因變量z,地理位置的橫坐標和縱坐標分別為自變量x、y,進行趨勢面分析,并對趨勢面方程進行適度F檢驗。,表3.6.2 流域降水量及觀測點的地理位置數(shù)據(jù),建立趨勢面模型 (1) 首先采用二次多項式進行趨勢面擬合,用最小二乘法求得擬合方程為,,,,,,,圖3.6.1 某流域降水量的二次多項式趨勢面,(2)再采用三次趨勢面進行擬合,用最小二乘法求得擬合方程為,,,圖3.

54、6.2 某流域降水量的三次多項式趨勢面,ARCGIS趨勢分析,,變換函數(shù)插值,根據(jù)一個或多個空間參量的經(jīng)驗方程進行整體插值,這種經(jīng)驗方程稱為變換函數(shù)。,變換函數(shù)的實質(zhì)是經(jīng)驗回歸模型。地理位置及其屬性可以盡可能多的信息組合成需要的回歸模型,然后進行空間插值。所有的回歸轉(zhuǎn)換函數(shù)插值都屬于近似的空間插值,比如,沖積平原的土壤重金屬污染與幾個重要因子有關(guān),其中距離污染源(河流)的距離和高程兩個因子最重要,一般情況,攜帶重金屬的粗粒泥沙沉積在

55、河灘上,攜帶重金屬的細粒泥沙沉淀在低洼的在洪水期容易被淹沒的地方,而那些洪水頻率低的地方,由于攜帶重金屬克里比較少,受污染輕。由于距離河流的距離和高程是容易得到的空間變量,利益用各種重金屬含量與它們的經(jīng)驗方程進行空間插值,以實現(xiàn)對未知區(qū)域重金屬污染的預測。本例回歸方程如下: z(x)=b0+b1*p1+b2*p2+ξ 式中, z(x)為重金屬含量,b0,b1是回歸系數(shù),

56、p1為據(jù)河流的距離,p2為高程,ξ為隨機變量。,整體插值方法通常使用方差分析和回歸方程等標準的統(tǒng)計方法,計算比較簡單。其他的許多方法也可以用于整體空間插值,如傅立葉級數(shù)和小波變換,特別是遙感影像分析方面,但需要的數(shù)據(jù)量大。,整體插值方法將短尺度的、局部的變化看作隨機和非結(jié)構(gòu)的噪聲,從而丟失了這一部分信息。局部插值方法恰好能彌補整體插值方法的缺陷,可用于局部異常值,而且不受插值表面上其它點的內(nèi)插值影響。整體插值方法通常不直接用于空間插值

57、,而是用來檢測不同于總趨勢的最大偏離部分,在去除了宏觀地物特征后,可用剩余殘差來進行局部插值。,整體插值注意的問題,局部插值方法,局部插值方法只適用臨近的數(shù)據(jù)點來估計未知點的值,包括以下幾個步驟:定義一個鄰域或搜索范圍搜索落在此鄰域范圍的數(shù)據(jù)點選擇表達這有限個點的空間變化的數(shù)學函數(shù);為落在規(guī)則格網(wǎng)單元上的數(shù)據(jù)點賦值。,常用的局部插值方法,最鄰近點法 /泰森多邊形法反距離加權(quán)法IDW樣條插值spline克里金插值法krigi

58、ng,最鄰近點法,最近距離法也稱泰森多邊形法,是基于泰森多邊形原理來進行數(shù)據(jù)插值運算的。原理: 首先將已知的各個離散點連接成三角形,對這些三角形的每條邊作垂直平分線,多條垂直平分線將研究區(qū)域劃分為若干個多邊形,離散點位于每個多邊形中,某個多邊形區(qū)域內(nèi)的數(shù)據(jù)值就由其包含的離散點的值來確定。,位于泰森多邊形上的點到其兩邊的離散點的距離相等泰森多邊形內(nèi)的未知點到其內(nèi)部離散點的距離比與其他離散點的距離短每個泰森多邊形內(nèi)僅

59、有一個已知數(shù)據(jù)值的離散點,泰森多邊形(Voronoi圖)的特征:,,,圖10.8 Voronoi地圖示例,最鄰近法評價,用泰森多邊形插值方法得到的結(jié)果圖變化只發(fā)生在邊界上,在邊界內(nèi)都是均質(zhì)的和無變化的。適用于較小的區(qū)域內(nèi),變量空間變異性也不是很明顯。符合人思維習慣,距離近的點比距離遠的點更相似,對插值點的影響也更明顯。最近鄰法插值的優(yōu)點是不需其他前提條件,方法簡單,效率高。缺點是受樣本點的影響較大,只考慮距離因素,對其他空間因素

60、和變量所固有的某些規(guī)律沒有過多地考慮。實際應用中,效果常不十分理想。,距離反比法(Inverse Distance),距離反比插值方法最早由 Shepard 提出(Richard Franke,1982),并逐步得到發(fā)展。每個采樣點都有局部影響,這種影響隨距離增加而減弱,因此距目標點近的樣點賦予的權(quán)重較大。屬于距離權(quán)重系數(shù)方法系列,它們一個原則就是給予距離近的點的權(quán)重大于距離遠的點的權(quán)重(Caruso, 1998)。,距離反比插值公式

61、,權(quán)重系數(shù)wj的計算是關(guān)鍵問題,不同類型的距離反比的差別就是權(quán)重系數(shù)的計算公式不同,因而最后的插值結(jié)果也有細微的差別。,距離反比權(quán)重系數(shù)的確定,,權(quán)重 權(quán)重過高,較近點的影響較大,擬合表面更細致(不光滑);權(quán)重過低,較遠點的影響增加,擬合表面更光滑。缺省值常為 2 。搜索半徑類型-規(guī)定化 對固定型半徑,搜索距離一定,所有在該半徑內(nèi)的樣點參與計算??深A先設定一個閾值,當給定半徑內(nèi)搜索到的點小于該值時可擴大搜索半

62、徑,直到達到該閾值為止。,控制反距離加權(quán)的參數(shù) ——權(quán)重、搜索半徑和障礙設置,搜索半徑類型-可變 設定參與計算的樣點數(shù)是固定的,則搜索的半徑是可變的。這樣對每個插值點的搜索半徑可能都不同,因為要達到規(guī)定的點數(shù)所需要搜索的區(qū)域是不一樣的。障礙 可利用一線狀和面狀數(shù)據(jù)集來限制樣點的搜索。線狀數(shù)據(jù)集可作為平坦地表的懸崖或脊狀障礙物-只有位于同側(cè)的樣點才符合要求。,距離反比插值評價,優(yōu)點——

63、簡便易行;可為變量值變化很大的數(shù)據(jù)集提供一個合理的插值結(jié)果;不會出現(xiàn)無意義的插值結(jié)果而無法解釋。 不足——對權(quán)重函數(shù)的選擇十分敏感;易受數(shù)據(jù)點集群的影響,結(jié)果常出現(xiàn)一種孤立點數(shù)據(jù)明顯高于周圍數(shù)據(jù)點的“鴨蛋”分布模式;距離反比很少有預測的特點,全局最大和最小變量值都散布于數(shù)據(jù)之中。 內(nèi)插得到的插值點數(shù)據(jù)在樣點數(shù)據(jù)取值范圍內(nèi)。,,,樣條插值是用一種數(shù)學函數(shù)來估計值,最小化所有表面曲率,逼近曲面的一種方法。它的目標就是尋

64、找一表面s(t),使它滿足最優(yōu)平滑原則,也就是說,利用樣本點擬合光滑曲線,使其表面曲率最小。相當于扭曲一個橡皮,使它通過所有樣點,同時曲率最小。,樣條插值(Spline Surface),樣條:樁點:樣條函數(shù)是靈活曲線規(guī)的數(shù)學等式,為分段函數(shù),一次擬合只有少數(shù)數(shù)據(jù)點配準,同時保證曲線段的連接處為平滑連續(xù)曲線(任意點可導)。這就意味著樣條函數(shù)可以修改曲線的某一段而不必重新計算整條曲線,插值速度快;保留了微地物特征,視覺上的滿意效果

65、。,樣條插值(Spline Surface),圖示,樣條插值類型,規(guī)則樣條插值(Regularized) 擬合的曲面光滑、漸變,可能超出采樣點的范圍。 權(quán)重—在曲率最小化表達式中,定義曲面的3階導權(quán)重,控制表面的平滑度。權(quán)重越大,曲面越光滑;權(quán)重必須大于或等于0,常取值為0, 0.001, 0.01,0.1, 0.5等。張力樣條(Tension) 擬合的曲面不似前者那樣光滑。 權(quán)重-定

66、義張力的權(quán)重。該系數(shù)越大,擬合表面越粗糙。權(quán)重必須大于或等于0,常取值為0, 1, 5,10等。,樣條插值插值評價,樣條函數(shù)易操作,每次只用少量數(shù)據(jù)點,插值速度快;同時,當表面很平滑時,也不犧牲精度;保留了微地物特征,視覺效果好;不需要對空間方差和結(jié)構(gòu)做預先估計;不需要做統(tǒng)計建設,而這些假設往往是難以估計和驗證的;一般要求有連續(xù)的一階和二階導數(shù);它適合于根據(jù)很密的點內(nèi)插等值線,特別是從不規(guī)則三角網(wǎng)內(nèi)插等值線。不適用于在短距離內(nèi)屬性有較

67、大變化的地區(qū),否則估計結(jié)果偏大。樣條內(nèi)插的誤差不能直接估算,同時在實踐中要解決的問題是樣條塊的定義以及如何在三維空間中將這些塊拼成復雜曲面而又不至于引入原始曲面中所沒有的異常現(xiàn)象等問題,,,Kriging插值,克里金插值是地統(tǒng)計分析的一種方法,由南非采礦工程師D.G.克里格(D. G. Krige)于1951年首次提出,故命名為“克里金”法,后經(jīng)法國著名地理數(shù)學學家G. Matheron發(fā)展深化。,克里金插值:認為任何在空間連續(xù)性變化

68、的屬性是非常不規(guī)則的,不能用簡單平滑數(shù)學函數(shù)進行模擬,可以用隨機表面給予較恰當?shù)拿枋?。目的:提供確定權(quán)重系數(shù)最優(yōu)的方法和并能描述誤差信息,地統(tǒng)計分析,都是建立在平穩(wěn)假設的基礎上的,這種假設在一定程度上要求所有數(shù)據(jù)值具有相同的變異性。另外,大多數(shù)的克里金插值方法(如普通克里金法、簡單克里金法和泛克里金法等)都假設數(shù)據(jù)服從正態(tài)分布。如果數(shù)據(jù)不服從正態(tài)分布,需要進行數(shù)據(jù)變換,從而使其服從正態(tài)分布。 因此,在進行地統(tǒng)計分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論