版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、目的:
流行性感冒(簡稱流感),是由流感病毒引起的急性呼吸道傳染性疾病,具有起病急、傳播快、感染性強等特點。僅20世紀以來,人類就經(jīng)歷了五次世界性的流感大流行,它們分別是1918年的“西班牙流感”、1957年的“亞洲流感”、1968年的“香港流感”、1977年的“俄羅斯流感”和2009年的甲型H1N1流感,每一次大流行都造成了巨大經(jīng)濟損失,嚴重的社會恐慌,并對人類健康產(chǎn)生了嚴重威脅。在全世界范圍內(nèi),每年約有25~50萬人死于流
2、感。目前,根據(jù)預測模型自變量的不同,流感疫情預測的方法主要分為三大類:一類是不考慮氣象等因素,僅依賴歷史流感發(fā)病數(shù)據(jù)的流感疫情預測;另一類是傳統(tǒng)的使用氣象因素作為自變量預測流感疫情;最后一類是基于互聯(lián)網(wǎng)數(shù)據(jù)的流感疫情預測,主要是基于流感相關核心詞的谷歌趨勢,百度指數(shù)等互聯(lián)網(wǎng)搜索數(shù)據(jù)的流感疫情預測。又根據(jù)預測因變量的不同—流感發(fā)病率或基于發(fā)病率的發(fā)病率等級,預測模型分為預測發(fā)病率的回歸模型和是否暴發(fā)流行的分類模型。同時機器學習的算法也被廣
3、泛應用于流感疫情預測的回歸和分類模型中。雖然有多種機器學習算法用于流感疫情預測,且都有不錯的預測效果,但并沒有對各種預測模型預測性能進行系統(tǒng)的比較。香港位于中國華南沿海地區(qū),是全世界人口密度最高的地區(qū)之一;僅自1968年以來,香港就暴發(fā)了三次流感暴發(fā)流行,分別是1968年的有H3N2病毒引起的“香港流感”,2009年的由甲型H1N1引起的香港流感暴發(fā)流行以及2015年的香港流感暴發(fā)流行,每次流感暴發(fā)流行都對香港地區(qū)的造成了較大的經(jīng)濟損失
4、并對人們的健康產(chǎn)生了嚴重威脅,流感疫情的預測有利于降低和控制流感對社會的危害。本研究中,我們以香港地區(qū)為例,基于氣象因素和流感搜索指數(shù)分別構建了多種回歸和分類預測模型預測流感疫情,并評價各模型的預測性能,挑選最佳的預測模型,用于流感疫情預測。
方法:
香港地區(qū)2011年7月1日至2016年8月27日,共270周的流感樣病例周求診率從香港衛(wèi)生署衛(wèi)生防護中心的官方網(wǎng)站獲得;我們從香港天文臺官方網(wǎng)站獲取了同時期香港地區(qū)的氣
5、象變量的數(shù)據(jù);同時,我們分別收集了同時期香港流感相關的谷歌核心詞的谷歌趨勢和百度核心詞的百度指數(shù)。我們計算所有氣象因素、流感相關核心詞的谷歌趨勢和百度指數(shù)與香港流感樣病例周求診率的交叉相關系數(shù),篩選出最大絕對交叉相關系數(shù)大于等于0.3的氣象因素和流感相關核心詞;我們將篩選出來的流感相關的谷歌核心詞和百度核心詞分別構建谷歌流感搜索指數(shù)和百度流感搜索指數(shù);然后我們分別以滯后0~8周的氣象因素和流感搜索指數(shù)(谷歌流感搜索指數(shù)和百度流感搜索指數(shù)
6、)為自變量,構建多種回歸(ARIMA,多元逐步線性回歸,LASSO線性回歸,支持向量回歸和BP神經(jīng)網(wǎng)絡)和分類預測模型(條件推理樹,K近鄰算法,Logistic回歸,樸素貝葉斯,支持向量機,Bagging決策樹,Boosting決策樹和隨機森林);在構建分類預測模型時,我們分別以香港流感樣病例周求診率的第75百分位數(shù)(P75)和第90百分位數(shù)(P90)為分界點,將香港流感樣病例周求診率轉化為兩個二分類變量—是否流感“暴發(fā)流行”(我們假定
7、香港流感樣病例周求診率大于等于P75或P90會發(fā)生流感“暴發(fā)流行”,小于P75或P90不會發(fā)生流感“暴發(fā)流行”)。對于回歸模型,我們采用了平均絕對百分比誤差和均方根誤差來評價模型的預測性能;對于分類模型,我們采用了準確率,靈敏度,特異度,陽性預測值,陰性預測值和約登指數(shù)這六個統(tǒng)計學指標評價分類模型的預測效果。
結果:
無論是在基于滯后的氣象因素還是流感搜索指數(shù)的回歸預測模型中,五種回歸預測模型的預測誤差從小到大的順序
8、均是BP神經(jīng)網(wǎng)絡<支持向量回歸 9、,K近鄰算法,Logistic回歸,樸素貝葉斯和支持向量機。同時,基于流感搜索指數(shù)的Bagging決策樹,Boosting決策樹和隨機森林分類預測模型均優(yōu)于相應的基于氣象因素的分類預測模型,在基于流感搜索指數(shù)的分類預測模型(以P75或P90為分界點的二分類)中,三種集成算法的準確率都在80%以上,能很好地預測香港流感疫情。 10、疫情的變化。使用氣象因素和流感相關核心詞的谷歌趨勢和百度指數(shù)均能較好地預測香港流感疫情;同時,基于互聯(lián)網(wǎng)流感搜索指數(shù)的流感疫情預測模型的預測性能均優(yōu)于基于氣象因素的流感疫情預測模型。獲取百度指數(shù)核心詞過程中開發(fā)的百度指數(shù)獲取軟件-Baidu Index Crawler能迅速地獲取核心詞的百度指數(shù),以便今后開展基于包括流感在內(nèi)的傳染病相關核心詞百度指數(shù)的傳染病疫情預測?;诹鞲邢嚓P核心詞的互聯(lián)網(wǎng)數(shù)據(jù)-谷歌趨勢和百度指數(shù)能很好地預測流感疫情
結論:
氣象因素和流感相關核心詞的互聯(lián)網(wǎng)搜索量均與流感疫情關系密切,它們的變化能從側面反映流感
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于互聯(lián)網(wǎng)數(shù)據(jù)的中國流感趨勢預測研究.pdf
- 基于AHP的互聯(lián)網(wǎng)金融風險因素研究——以A公司為例.pdf
- 互聯(lián)網(wǎng)公司的團隊溝通:以互聯(lián)網(wǎng)公司H公司為例.pdf
- 移動互聯(lián)網(wǎng)信息安全管理研究——以江西電信移動互聯(lián)網(wǎng)為例.pdf
- 基于機器學習算法的信用風險預測模型研究——以某互聯(lián)網(wǎng)金融公司數(shù)據(jù)樣本為例.pdf
- 移動互聯(lián)網(wǎng)信息安全管理研究——以江西電信移動互聯(lián)網(wǎng)為例
- 基于互聯(lián)網(wǎng)+的茶業(yè)商業(yè)模式創(chuàng)新因素研究——以江西婺源茶業(yè)為例.pdf
- 基于主題的互聯(lián)網(wǎng)信息搜索方法研究.pdf
- 基于互聯(lián)網(wǎng)的人臉圖像搜索.pdf
- 基于互聯(lián)網(wǎng)平臺的農(nóng)戶借貸行為影響因素研究--以陜西省農(nóng)戶為例.pdf
- 互聯(lián)網(wǎng)搜索引擎搜索策略和算法的研究.pdf
- 互聯(lián)網(wǎng)企業(yè)知識型員工敬業(yè)度影響因素研究——以渝中區(qū)環(huán)球互聯(lián)網(wǎng)產(chǎn)業(yè)園為例.pdf
- “互聯(lián)網(wǎng)+”背景下基于并購的傳統(tǒng)企業(yè)互聯(lián)網(wǎng)轉型研究——以華誼兄弟并購銀漢科技為例.pdf
- “互聯(lián)網(wǎng)”背景下基于并購的傳統(tǒng)企業(yè)互聯(lián)網(wǎng)轉型研究——以華誼兄弟并購銀漢科技為例
- 互聯(lián)網(wǎng)消費金融的風險研究——以“京東白條”為例.pdf
- 基于互聯(lián)網(wǎng)的智能搜索與信息抽取.pdf
- 基于互聯(lián)網(wǎng)金融的平臺整合研究——以銀河金控為例.pdf
- 互聯(lián)網(wǎng)環(huán)境下基于消費者搜索的旅游需求預測研究.pdf
- 互聯(lián)網(wǎng)消費金融的風險研究——以“京東白條”為例
- 互聯(lián)網(wǎng)基金的風險控制研究——以余額寶為例.pdf
評論
0/150
提交評論