Geoda軟件在空間自相關(guān)計(jì)算方面較有優(yōu)勢(shì)。那么本期分享基于Geoda軟件,以中國內(nèi)地GDP數(shù)據(jù)為例計(jì)算莫蘭指數(shù),文末附帶練習(xí)數(shù)據(jù)獲取方式。
軟件與使用數(shù)據(jù)
GeoDa是一個(gè)免費(fèi)的開源軟件工具,是強(qiáng)有力進(jìn)行地理空間數(shù)據(jù)處理的分析軟件,最具有特色的應(yīng)該就屬是空間自相關(guān)的計(jì)算了,不過除此之外,軟件本身也集成了很多空間數(shù)據(jù)探索分析方法:。另外,本期數(shù)據(jù)來源于國家統(tǒng)計(jì)局2019年中國內(nèi)地GDP數(shù)據(jù)(港澳臺(tái)數(shù)據(jù)沒下載到,故不含港澳臺(tái)),包括地區(qū)GDP()與人均GDP(),把屬性數(shù)據(jù)和矢量數(shù)據(jù)結(jié)合在一起,即得到了本期數(shù)據(jù)。當(dāng)然大家也可以看看之前發(fā)過的文章:
理解空間自相關(guān)
依據(jù)在1970年提出的地理學(xué)第一定律:“任何東西與別的東西之間都是相關(guān)的,但近處的東西比遠(yuǎn)處的東西相關(guān)性更強(qiáng)”的原理,可知空間現(xiàn)象普遍存在自相關(guān)性。
拿GDP來舉例,一個(gè)地區(qū)的GDP越高,它周圍的區(qū)域就很難完全獨(dú)立于該區(qū)域,可能會(huì)存在下面兩種情況:
(1) 該地區(qū)周圍區(qū)域的GDP都很高(正相關(guān)),共享了某個(gè)有利的客觀條件了屬于是,如沿海區(qū)域GDP都傾向于較高。
(2) 該地區(qū)的周圍區(qū)域GDP都很低(負(fù)相關(guān)),造成這種局勢(shì)很有可能屬于是該區(qū)域具有較強(qiáng)的城市吸引力,將周邊地區(qū)的資源吸引了去的原因。
但無論哪種情況,區(qū)域上的相近總會(huì)造成某種屬性的相似空間數(shù)據(jù)分析教程,這就是空間自相關(guān)了。為了衡量空間自相關(guān)的程度,澳大利亞統(tǒng)計(jì)學(xué)家帕特里克·阿爾弗雷德·皮爾斯·莫蘭( Moran)在1950年提出了一個(gè)指數(shù)來反映空間鄰接或空間鄰近的區(qū)域單元屬性值的相似程度。
Moran’s I的定義式如下:
我們可以不用懂上面這個(gè)式子,只需要知道它需要輸入什么數(shù)據(jù),得到什么結(jié)果就可以了。結(jié)果比較簡(jiǎn)單也不難理解:和相關(guān)系數(shù)一樣,值域?yàn)?1~1,越接近于-1,負(fù)相關(guān)性就越大;反之越接近于1,正相關(guān)性就越大。然后我們來看一下它需要輸入什么:也比較簡(jiǎn)單,因?yàn)槭恰白韵嚓P(guān)”,只需要輸入一個(gè)變量。另外就是該如何體現(xiàn)“空間”,其核心是空間權(quán)重矩陣的確定。空間權(quán)重矩陣以0或1的方式標(biāo)記兩者是否鄰接,來體現(xiàn)空間關(guān)系,確定鄰接方式有兩種。
第一種為多邊形鄰接(處理的數(shù)據(jù)為面狀要素):定義兩個(gè)要素有公共邊為相鄰,定義權(quán)重為1,反之權(quán)重則為0;不過也可以定義兩個(gè)要素為二階相鄰,也就是與相鄰的相鄰。第二種為距離鄰接(如處理的數(shù)據(jù)為點(diǎn)狀要素):即在一定距離范圍內(nèi)相鄰,這個(gè)距離可以是簡(jiǎn)單的歐氏距離也可以是復(fù)雜的線段距離(基于路網(wǎng)等等)。雖然莫蘭指數(shù)能夠判斷出空間上的整體分布情況,但事實(shí)難以探測(cè)出聚集的位置所在及區(qū)域相關(guān)程度。為了反映整個(gè)大區(qū)域中的局部指標(biāo),需要進(jìn)一步分析局部空間自相關(guān)。通常包括:空間聯(lián)系的局部指標(biāo)(Local of ,LISA)、Moran散點(diǎn)圖。
局部莫蘭指數(shù)定義如下:
我們同樣不需要懂上面這個(gè)式子,只要能理解通過上面這個(gè)式子可以計(jì)算得到每個(gè)要素對(duì)應(yīng)的局部莫蘭指數(shù)值,同時(shí)經(jīng)過顯著性檢驗(yàn)可以知道哪些是結(jié)果是顯著的就足夠了。
莫蘭散點(diǎn)圖則是在1996年首次提出的,所擬合的回歸直線的斜率即為莫蘭指數(shù)。
如上圖所示是一個(gè)莫蘭散點(diǎn)圖,散點(diǎn)圖的縱軸為相鄰要素的變量的值與均值的偏差,橫軸為變量的值與均值的偏差。可能理解起來比較抽象,可以直接看結(jié)論。與局部莫蘭指數(shù)相比,莫蘭散點(diǎn)圖的重要優(yōu)勢(shì)在于能夠進(jìn)一步具體區(qū)分每個(gè)要素與其鄰居要素之間的關(guān)系,包括高值-高值(落在第一象限)、低值-低值(落在第三象限)、高值-低值(落在第四象限)和低值-高值(落在第二象限)四種空間聯(lián)系形式。這樣能夠更清晰的知道,一個(gè)區(qū)域周圍分布的是高值區(qū)域和低值區(qū)域,這在實(shí)際問題的分析中具有重要參考價(jià)值。
空間自相關(guān)計(jì)算步驟
1. 加載數(shù)據(jù),打開屬性表
2. 構(gòu)建權(quán)重矩陣
點(diǎn)擊 按鈕就可以進(jìn)入權(quán)重構(gòu)建頁面,如下圖所示:
這里有幾個(gè)選項(xiàng),可以根據(jù)需求選擇:(1) 選擇ID變量:變量標(biāo)識(shí),是屬性表中的某一列,用于標(biāo)識(shí)對(duì)象,所以需要值唯一。當(dāng)然也可以點(diǎn)擊【添加ID變量】創(chuàng)建新的標(biāo)識(shí)列。(2) 確定權(quán)重鄰接形式:第一種為【鄰接空間權(quán)重】a;第二種為【基于距離空間權(quán)重】b。這兩種方法選擇其中一個(gè)。a. 鄰接空間權(quán)重參數(shù)設(shè)置:在GeoDa軟件當(dāng)中【Rook鄰接】和【Queen鄰接】?jī)煞N規(guī)則,這兩個(gè)參數(shù)點(diǎn)選其一。在GeoDa軟件當(dāng)中【Rook鄰接】規(guī)則認(rèn)為只有當(dāng)兩區(qū)域具有公共邊界時(shí)才確定為鄰接關(guān)系;【Queen鄰接】規(guī)則認(rèn)為兩區(qū)域具有共邊界或公共頂點(diǎn)時(shí)確定為鄰接關(guān)系。【鄰接得秩】,該參數(shù)定義的是需要用到幾階鄰接,默認(rèn)就是一階。兩階鄰接就是一個(gè)多邊形鄰接的鄰接也在距離之內(nèi),依此類推。b. 基于距離空間權(quán)重參數(shù)設(shè)置:
【指定帶寬】為距離閾(yv)值,超出閾值則會(huì)被判別為不鄰接。【距離量度】為距離度量方式,包括歐幾里得距離(輸入兩個(gè)坐標(biāo)就能算出)、弧段距離(主要針對(duì)沒有投影),如果用的是經(jīng)緯度的圖層,由于這類圖層不能用經(jīng)緯度坐標(biāo)直接計(jì)算歐氏距離,所以需要引入考慮地球曲率的弧段距離。不過,還是建議在做與距離有關(guān)的分析時(shí),首先對(duì)圖層進(jìn)行投影。【X坐標(biāo)變量】和【Y坐標(biāo)變量】為坐標(biāo)變量,就是每個(gè)要素的實(shí)際位置,如果是多邊形一般取的就是質(zhì)心坐標(biāo)了。這里以鄰接空間權(quán)重rook鄰接方式構(gòu)建權(quán)重矩陣,構(gòu)建好的權(quán)重矩陣文件,用寫字板打開如下:
雖然是權(quán)重矩陣文件,但是并沒有以矩陣的形式存儲(chǔ),不過不影響。這個(gè)文件以兩行為一個(gè)單元存儲(chǔ)了每個(gè)元素的鄰居元素,例如可以看出34這個(gè)對(duì)象有6個(gè)鄰接,分別為41,42,32,36,37和33。
空間權(quán)重矩陣構(gòu)建結(jié)果的可視化展示:
3.計(jì)算全局莫蘭指數(shù)
點(diǎn)擊單變量 Moran’s I 進(jìn)入莫蘭指數(shù)計(jì)算界面,首先是確定變量:
在這里以這個(gè)變量為例,含義為中國內(nèi)地各省份地區(qū)的人均GDP:
計(jì)算得到莫蘭指數(shù)為0.296。
理解散點(diǎn)圖:這里引入一個(gè)變量z,含義為變量偏離均值的大小,所以整體上分布在0值兩邊。同是z也就是橫軸變量,而縱軸變量為鄰接要素的變量值乘以對(duì)應(yīng)歸一化權(quán)重值的和,反映的是鄰居要素的整體水平。由此可見,落在第一象限,無論是該元素還是它的鄰居元素,均比較大(相對(duì)均值來說),體現(xiàn)一種高-高分布的格局;而第二象限內(nèi),該元素比較小,它的鄰居元素變量值又比較大,呈現(xiàn)一種低-高的空間分布格局。
第1象限代表了高觀測(cè)值的區(qū)域單元被同是高值的區(qū)域所包圍的空間聯(lián)系形式;(High-High);
第2象限代表了稿觀測(cè)值的區(qū)域單元被低值的區(qū)域所包圍的空間聯(lián)系形式;(High-Low);
第3象限代表了低觀測(cè)值的區(qū)域單元被同是低值的區(qū)域所包圍的空間聯(lián)系形式;(Low-Low);
第4象限代表了低觀測(cè)值的區(qū)域單元被高值的區(qū)域所包圍的空間聯(lián)系形式。(Low-High)。
4.顯著性評(píng)價(jià)
通過隨機(jī)生成空間數(shù)據(jù),來看是否能夠拒絕空間隨機(jī)性的零假設(shè):
5.計(jì)算局部莫蘭指數(shù)
點(diǎn)擊單變量局部Moran’s I 進(jìn)入局部莫蘭指數(shù)計(jì)算界面,首先是確定變量:
仍以這個(gè)變量為例:
在執(zhí)行局部莫蘭指數(shù)計(jì)算時(shí),可以勾選三個(gè)顯示結(jié)果,但最后一個(gè)莫蘭散點(diǎn)圖在計(jì)算全局空間自相關(guān)時(shí)已經(jīng)顯示,這里勾選前兩個(gè)選項(xiàng)。
(因港澳臺(tái)數(shù)據(jù)沒有下載到,故展示的是中國內(nèi)地結(jié)果)
(因港澳臺(tái)數(shù)據(jù)沒有下載到,故展示的是中國內(nèi)地結(jié)果)
這兩個(gè)圖,上面為聚集圖,有四種空間聯(lián)系方式,包括高值-高值(莫蘭散點(diǎn)圖中落在第一象限的區(qū)域)、低值-低值(第三象限)、高值-低值(第四象限)和低值-高值(第二象限)。同時(shí)該聚集圖只顯示了顯著的區(qū)域。下面為對(duì)應(yīng)的顯著性水平,表明每個(gè)區(qū)域?qū)?yīng)的局部相關(guān)值是否顯著。
出圖
GeoDa出圖非常的簡(jiǎn)單只需右鍵單擊圖像并保存即可,或者在總的菜單欄里單擊選項(xiàng):
參考
博客用戶:Geoda空間自相關(guān)操作步驟
練習(xí)數(shù)據(jù)獲取
星標(biāo)公眾號(hào)后,公眾號(hào)后臺(tái)回復(fù)Geoda即可。
結(jié)語
本期“GeoDa空間自相關(guān)分析之莫蘭指數(shù)計(jì)算詳細(xì)教程”分享結(jié)束,感謝您的閱讀!水平有限,推文僅供學(xué)習(xí)參考,如有任何錯(cuò)誤,煩請(qǐng)后臺(tái)指正,覺得不錯(cuò),可把公眾號(hào)設(shè)為星標(biāo)空間數(shù)據(jù)分析教程,順便點(diǎn)下【贊】【在看】吧!