版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p><b> 管理工程決策方法</b></p><p><b> 課程論文</b></p><p> 院 系 物流學院 </p><p> 專 業(yè) 物流工程 </p><p> 班 級 物工一班
2、 </p><p> 地級市地區(qū)生產總值數(shù)據(jù)分析</p><p> 關鍵詞:地區(qū)生產總值;時間序列;聚類分析;回歸分析</p><p><b> 第1章 緒論</b></p><p><b> 1.1研究目的</b></p><p> 地區(qū)生產總值(地區(qū)GDP)是
3、一個地區(qū)的所有常住單位在一定時期內所生產的全部最終產品和服務的價值總和是反映經濟總體狀況最重要的指標,GDP就像天氣的衛(wèi)星云圖一樣,能夠提供經濟狀況的完整圖像,能夠幫助領導者判斷經濟是在萎縮還是在膨脹,是需要刺激還是需要控制,是處于嚴重衰退還是處于通脹威脅之中。如果沒有像GDP這樣的總量指標,政策制定者就會陷入雜亂無章的數(shù)字海洋而不知所措。,地區(qū)GDP可以反映一個地區(qū)的經濟發(fā)展規(guī)模,判斷其經濟總體實力和經濟發(fā)展的快慢,還可以用來進行經濟
4、結構分析,是宏觀經濟決策的重要依據(jù)。所以通過研究各地區(qū)的生產總值,可以讓我們了解全國各地區(qū)的經濟發(fā)展水平并將同一級別的城市進行聚類,同時也有利于進行相應的政策支持。</p><p><b> 1.2數(shù)據(jù)來源</b></p><p> 此數(shù)據(jù)來自2009-2011年中國城市統(tǒng)計年鑒的地級市地區(qū)生產總值(如下圖)</p><p><b&g
5、t; 圖1- 1數(shù)據(jù)來源</b></p><p><b> 1.3研究思路</b></p><p><b> 圖1- 2研究思路</b></p><p> 第2章 數(shù)據(jù)挖掘與處理</p><p><b> 2.1數(shù)據(jù)挖掘簡介</b></p>
6、<p> 2.1.1數(shù)據(jù)挖掘的定義</p><p> 數(shù)據(jù)挖掘是從大量的原始數(shù)據(jù)中采用多種方法去尋找數(shù)據(jù)間隱含的有趣模式和知識的過程。如果數(shù)據(jù)挖掘的過程可形象的比喻成從黃金礦山中幵釆黃金(如圖2-1所示),那么原始數(shù)據(jù)具的大容量、含噪音和異質數(shù)據(jù)就像是礦山上的廢漁一樣;挖掘算法好比肝釆工具一樣具有多樣化特點;數(shù)據(jù)間隱藏的模式和知識就如黃金一樣事先人們是看不到的、但是對人們又非常有用。[1]</
7、p><p> 2.1.2挖掘數(shù)據(jù)的類型</p><p> 數(shù)掘挖掘足一種通用的技術,它可以挖掘任何對目標應用有意義的數(shù)據(jù)。</p><p> 這些數(shù)據(jù)大致可分以下四類:</p><p><b> ?。?)數(shù)據(jù)庫數(shù)據(jù)</b></p><p> 作為數(shù)據(jù)挖掘研究中最主要的數(shù)據(jù)形式,關系數(shù)據(jù)庫擁有豐
8、富的數(shù)據(jù)源。它是許多表的匯集,每個表都包含許多字段,并且存放大量的記錄。每一個記錄代表一個對象,被唯一的關鍵字所標識,并且被其它字段描述它的屬性。</p><p><b> (2)數(shù)據(jù)倉庫</b></p><p> 數(shù)據(jù)倉庫是按照某一主題組織的、經過清理加工和整理的、能夠反映歷史各階段信息的、相對較穩(wěn)定的數(shù)據(jù)的累積。</p><p><
9、;b> ?。?)事務數(shù)據(jù)</b></p><p> 事務數(shù)據(jù)庫中的每一個記錄表示一個事務,每個事務擁有唯一的標識號,以及組成事務的項的列表。</p><p> ?。?)其它類型的數(shù)據(jù)</p><p> 除了上述三種數(shù)據(jù)以外,還有很多其它數(shù)據(jù)也可以作為數(shù)據(jù)挖掘的數(shù)據(jù)源。例如工程設計數(shù)據(jù)(如集成電路)、多媒體和文本數(shù)據(jù)(如音頻、視頻)、數(shù)據(jù)流(如視
10、頻監(jiān)控)、空間數(shù)據(jù)(如導航地圖)等等。</p><p> 2.1.3數(shù)據(jù)挖掘的任務</p><p> 數(shù)據(jù)的挖掘任務包括兩類,第一類任務用于刻畫目標數(shù)據(jù)中數(shù)據(jù)的性質,第二類任務用于在當前數(shù)據(jù)上分析判斷,然后做出預測。前者屬于描述性任務,而后者屬于預測性任務。一般而言,數(shù)據(jù)的挖掘任務有如下6種任務:</p><p> ?。?)數(shù)據(jù)特征化與區(qū)分(2)關聯(lián)分析 (
11、3)分類</p><p> ?。?)聚類分析 (5)離群點分析 (6)序列模式</p><p> 2.1.4數(shù)據(jù)挖掘的步驟</p><p><b> (1)確定問題</b></p><p> 明確數(shù)據(jù)挖掘任務的具體需求和確定挖掘釆用的具體方法(如關聯(lián)、分類、聚類等)。</p><p
12、> ?。?)數(shù)據(jù)收集和預處理</p><p> 此步驟主要包括數(shù)據(jù)的選擇、預處理以及轉換。</p><p> 1數(shù)據(jù)選擇就是確定挖掘任務的目標數(shù)據(jù),依據(jù)任務要求,從相關數(shù)據(jù)源中選取任務相關數(shù)據(jù)。</p><p> 2、數(shù)據(jù)預處理一般包括空缺處理、平滑噪聲、數(shù)據(jù)規(guī)約、數(shù)據(jù)類型轉換、數(shù)據(jù)集成等處理。</p><p> 3、數(shù)據(jù)轉換是
13、指從對象的初始屬性中選取挖掘任務相關的屬性,來提高挖掘的整體效率。</p><p><b> ?。?)數(shù)據(jù)挖掘</b></p><p> 根據(jù)所選定的挖掘方法,對上面步驟處理好的數(shù)據(jù),選擇合適的挖掘算法進行數(shù)據(jù)挖掘得出模型。</p><p><b> ?。?)分析和評估</b></p><p>
14、 對上面步驟中挖掘所得的模型進行評估分析。需要注意的是整個數(shù)據(jù)挖掘的過程是需要不斷反饋和修正的。當在挖掘的過程中發(fā)現(xiàn)由于數(shù)據(jù)不合適或者挖掘方法不恰當,造成挖掘的結果不夠理想,那么需要重復挖掘過程,如果有需要的話,可以從頭重新開始。</p><p><b> ?。?)知識的應用</b></p><p> 將最后確定的有用挖掘結果(知識)應用到問題中去。</p&g
15、t;<p><b> 2.2數(shù)據(jù)處理</b></p><p> 在數(shù)據(jù)挖掘整體過程中,海量的原始數(shù)據(jù)中存在著大量雜亂的、重復的、不完整的數(shù)據(jù),嚴重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導致挖掘結果的偏差。為此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對收集到的原始數(shù)據(jù)進行預處理,以改進數(shù)據(jù)的質量,提高數(shù)據(jù)挖掘過程的效率、精度和性能。數(shù)據(jù)預處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸
16、約等技術</p><p> 圖2- 1剔除各省名稱和空值</p><p> 2.2時間序列數(shù)據(jù)準備</p><p> 選取各城市地區(qū)生產總值的全市數(shù)值列匯總到時間序列原數(shù)據(jù)表格</p><p><b> 圖2- 2</b></p><p> 2.3聚類分析和回歸數(shù)據(jù)準備</p>
17、;<p> 將2008-2011年數(shù)據(jù)整理</p><p><b> 圖2- 3</b></p><p> 第3章 地區(qū)生產總值數(shù)據(jù)分析</p><p> 3.1 2012-2017年時間序列分析</p><p> 3.1.1時間序列分析簡介</p><p> 時間序列
18、:是指將某種現(xiàn)象某一個統(tǒng)計指標在不同時間上的各個數(shù)值,按時間先后順序排列而形成的序列。時間序列法是一種定量預測方法,亦稱簡單外延方法。在統(tǒng)計學中作為一種常用的預測手段被廣泛應用。時間序列分析在第二次世界大戰(zhàn)前應用于經濟預測。二次大戰(zhàn)中和戰(zhàn)后,在軍事科學、空間科學、氣象預報和工業(yè)自動化等部門的應用更加廣泛。時間序列分析(Time series analysis)是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法。該方法基于隨機過程理論和數(shù)理統(tǒng)計學方法,研究隨機
19、數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律,以用于解決實際問題。</p><p> 時間序列分析方法:它包括一般統(tǒng)計分析(如自相關分析,譜分析等),統(tǒng)計模型的建立與推斷,以及關于時間序列的最優(yōu)預測、控制與濾波等內容。經典的統(tǒng)計分析都假定數(shù)據(jù)序列具有獨立性,而時間序列分析則側重研究數(shù)據(jù)序列的互相依賴關系。后者實際上是對離散指標的隨機過程的統(tǒng)計分析,所以又可看作是隨機過程統(tǒng)計的一個組成部分。例如,記錄了某地區(qū)第一個月,第二個月,……
20、,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預報。</p><p> 隨著計算機的相關軟件的開發(fā),數(shù)學知識不再是空談理論,時間序列分析主要是建立在數(shù)理統(tǒng)計等知識之上,應用相關數(shù)理知識在相關方面的應用等。</p><p><b> 3.1.2數(shù)據(jù)分析</b></p><p> (1)導入2008年-2009年數(shù)據(jù)<
21、;/p><p><b> 圖3- 1</b></p><p><b> ?。?)讀取值</b></p><p><b> 圖3- 2</b></p><p> ?。?)設置時間區(qū)間和初始年份</p><p> 時間以年為單位,初始年份為2008年<
22、;/p><p><b> 圖3- 3</b></p><p><b> 并預測未來五年</b></p><p><b> 圖3- 4</b></p><p><b> 采用指數(shù)平滑方法,</b></p><p> 指數(shù)平滑方法
23、:最近的過去態(tài)勢,在某種程度上會持續(xù)到最近的未來,所以將較大的權值放在最近的數(shù)據(jù)樣本上。 </p><p> 原理:任一期的指數(shù)平滑值都是本期實際觀察值與前一期指數(shù)平滑值的加權平均。</p><p> 基本思想:預測值是以前觀察值的加權和,且對不同的數(shù)據(jù)給予不同的權值,新數(shù)據(jù)給較大的權值,舊數(shù)據(jù)給較小的權值。</p><p><b> 圖3- 5&l
24、t;/b></p><p> ?。?)選定地區(qū)生產總值進行繪圖</p><p><b> 圖3- 6</b></p><p><b> (5)運行預測如下</b></p><p><b> 圖3- 7</b></p><p><b>
25、; (6)圖形如下</b></p><p> 指數(shù)平滑建模結果如下</p><p><b> 圖3- 8</b></p><p><b> 專家建模器結果如下</b></p><p><b> 圖3- 9</b></p><p>&
26、lt;b> 模型如下</b></p><p><b> 圖3- 10</b></p><p> 3.2 2008-2011年各地區(qū)生產總值聚類分析</p><p> 3.2.1聚類分析及算法簡介</p><p> (1)聚類分析(Cluster Analysis)又稱群分析,是根據(jù)“物以類聚”
27、的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術的發(fā)展,對分類的要求越來越高,以致有時僅憑經驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分
28、類學,之后又將多元分析的技術引入到數(shù)值分類學形成了聚類分析。</p><p> 聚類分析被應用于很多方面,在商業(yè)上,聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識;在地理上,聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性;在保險行業(yè)上,聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型
29、,價值,地理位置來鑒定一個城市的房產分組;在因特網應用上,聚類分析被用來在網上進行文檔歸類來修復信息。</p><p> 聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎上收集數(shù)據(jù)來分類。聚類源于很多領域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發(fā)展,這些技術方法被用作描
30、述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。</p><p> ?。?)聚類方法的特征</p><p> 1、聚類分析簡單、直觀;</p><p> 2、聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析;</p><p> 3、不管實際數(shù)據(jù)中是否真正存在不
31、同的類別,利用聚類分析都能得到分成若干類別的解;</p><p> 4、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響;</p><p> 5、研究者在使用聚類分析時應特別注意可能影響結果的各個因素;</p><p> 6、異常值和特殊的變量對聚類有較大影響,當分類變量的測量尺度不一致時,需要事先做標準化處理。
32、</p><p> (3)K-means算法</p><p> 也稱k-平均算法。k-means是一種迭代算法,初始的k個簇被隨機的定義之后,這些簇將被不斷地更新,并在更新中被優(yōu)化,當無法再進一步優(yōu)化(或者達到一定的迭代次數(shù))時算法才停止,然后生成模型。</p><p> 在k-means算法中,每個簇有一個中心,稱為“質心”,k個簇就相應地有k個質心。一個樣
33、本究竟被劃分到哪個簇,就看它和哪個質心的“相異度”最小。在k-means算法中,衡量相異度的指標是“距離”。所以也可以這么說,一個樣本究竟被劃分到哪個簇,就看它和哪個質心的“距離”最小。這里的距離,則是由樣本的每一個屬性的取值來共同參與決定的。</p><p><b> 3.2.2數(shù)據(jù)分析</b></p><p><b> (1)建立模型如下</b
34、></p><p><b> 圖3- 11</b></p><p> ?。?)導入2008年地區(qū)生產總值數(shù)據(jù)</p><p><b> 圖3- 12</b></p><p><b> (3)讀取值</b></p><p><b>
35、 圖3- 13</b></p><p> ?。?)設置聚類數(shù)并運行</p><p><b> 圖3- 14</b></p><p><b> (5)得到結果</b></p><p><b> 圖3- 15</b></p><p> 由
36、上圖可知聚類7占所有的34.1%,而這些城市多是通遼市,呼倫貝爾市,巴彥淖爾市,吉林市,四平市這些城市大多市轄區(qū)地區(qū)生產總值增長率較高都保持在20%以上,且其發(fā)展水平在國家各城市發(fā)展水平的中部,有較高發(fā)展前景。</p><p> (6)分別帶入2009.2010.2011年數(shù)據(jù)取得結果</p><p> 圖3- 16 2009年</p><p> 圖3- 1
37、7 2010年</p><p> 圖3- 18 2011年</p><p> 分別選取通遼市,呼倫貝爾市,巴彥淖爾市,吉林市,四平市等城市進行跟蹤對比得到下圖</p><p><b> 表3- 1</b></p><p> 由上表可以看出在2008年到2009年,9所城市發(fā)展情況差不多,地區(qū)生產總值都在穩(wěn)步提
38、升,但到2010年開始聚類層次不一致的情況,且有些城市增速放緩,到2011年更加明顯聚類更加不一致,以通遼市、吉林市、松原市為代表的聚類5繼續(xù)保持快速上升趨勢。而通化市的增速則放緩了。</p><p> 3.3 2008年-2011年各城市地區(qū)生產總值回歸分析</p><p> 3.3.1線性回歸介紹</p><p> 線性回歸是一種古老類型的技術統(tǒng)計,是重
39、要的也是最有用的挖掘工具之一。線性回歸能夠使挖掘者找到數(shù)據(jù)中最有價值和最深入的發(fā)現(xiàn),同時,也很容易解釋在被發(fā)現(xiàn)的關系上發(fā)生了什么。本質上,線性回歸是一種探索式、驗證性的方式,尋找穿過狀態(tài)空間的單獨一條直線以便使這條直線盡可能地靠近空間中的所有點。當狀態(tài)空間多于二維時,它不是恰好一條直線。在三維空間中,它是一個面,在多維空間中,它將是二維空間中直線的高緯度模擬。以二維的狀態(tài)空間為例,只要數(shù)據(jù)很好地聚合至少大致接近于一條直線(如圖1所示),
40、就可以對數(shù)據(jù)集合進行解釋和預測。因為直線被調整得離所有的點盡可能近,當通過一個已知變量進行預測時,其預測值在狀態(tài)空間中應當在直線附近。所以,直線上的點所返回的變量值是一個合理值的近似估計值。[2]</p><p> 在Clementine中,一元或多元線性回歸分析由回歸節(jié)點來完成,它采用最小二乘法來根據(jù)樣本數(shù)據(jù)建立回歸方程。在回歸模型中只能使用連續(xù)型字段,必須有且僅有一個目標字段(輸出字段,因變量),可以有一個
41、或多個預測變量(輸入字段,自變量)</p><p><b> 3.3.2數(shù)據(jù)分析</b></p><p><b> (1)建立模型</b></p><p><b> 圖3- 19</b></p><p><b> ?。?)導入數(shù)據(jù)</b></p
42、><p><b> 圖3- 20</b></p><p> ?。?)讀取值并設置全市地區(qū)生產總值為目標</p><p><b> 圖3- 21</b></p><p> ?。?)設置方法為進入法</p><p><b> 圖3- 22</b></
43、p><p><b> ?。?)運行模型</b></p><p><b> 圖3- 23</b></p><p> (6)設置不同的方法運行</p><p><b> 圖3- 24</b></p><p><b> 取得結果如下</b&
44、gt;</p><p><b> 逐步法</b></p><p> 圖3- 25 逐步法</p><p><b> 后退法</b></p><p> 圖3- 26 后退法</p><p><b> 前進法</b></p>&l
45、t;p> 圖3- 27 前進法</p><p> 通過回歸分析的預測,可以得知各城市基本在保持穩(wěn)定增長。</p><p><b> 第4章 總結</b></p><p> 本文通過分別的2012年到2017年的時間序列分析,2008年到2011年地區(qū)生產總值聚類分析以及2011年各城市地區(qū)的回歸分析,得到一些結論,隨著中國發(fā)展,
46、基本上各城市都保持這穩(wěn)定的地區(qū)經濟發(fā)展,像通遼市、吉林市、松原市為代表的中國中等發(fā)展水平的城市現(xiàn)在仍然在保持著每年10%以上的地區(qū)生產總值增長率,但是像呼倫貝爾市,巴彥淖爾,四平市等東北部城市增速放緩,已經處于中下等增速城市,需要國家政策支持。</p><p><b> 參考文獻</b></p><p> [1] 孫兵. 數(shù)據(jù)挖掘在高校招生中應用的研究[D].安徽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于回歸分析的地區(qū)生產總值變化研究
- 大數(shù)據(jù)分析結課論文
- 管理工程決策方法論文基于dea下出口貨物分類金額對國民生產總值的影響
- 淺析甘肅省地區(qū)生產總值的預測
- 淺析甘肅省地區(qū)生產總值的預測
- 國內生產總值影響因素分析
- 工業(yè)生產總值.xls
- 工業(yè)生產總值.xls
- 鹽城地區(qū)生產總值及與周邊地區(qū)的對比分析
- 中國現(xiàn)行國內生產總值核算方法
- 生產總值發(fā)展情況統(tǒng)計研究
- 生態(tài)系統(tǒng)生產總值
- 我國國內生產總值的實證分析
- 時間序列論文(國內生產總值的預測)
- 我國國內生產總值數(shù)據(jù)質量問題研究
- 國內生產總值現(xiàn)價總量
- 影響北京市生產總值因素的回歸分析
- 我國國內生產總值數(shù)據(jù)質量問題研究.pdf
- 地方政府支出與地區(qū)生產總值的相關性研究
- 中國國內生產總值的國際比較方法研究.pdf
評論
0/150
提交評論