版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、生堡亟隨醫(yī)堂苤志2 Q 1 5 生§旦筮塑鲞筮§期£叢Ⅱ』£翌! 叢趟:』! ! 12 Q ! 』,y ! ! :塑,盟! :魚谷歌流感預測——大數據在公共衛(wèi)生領域的嘗試鄒曉輝朱聞斐楊磊舒躍龍【摘要】谷歌流感預測( G o o g l eF l uT r e n d s ,G F v r ) 是大數據在公共衛(wèi)生領域的首次嘗試,自2 0 0 9年上線以來,受到了各方的廣泛關注。上線初期,G 丌預測結果與美國c D c
2、數據高度相關,但隨后G F T 未能預測到2 0 0 9 年甲流大流行,并在2 叭2 —2 0 1 4 年季度持續(xù)高估了美國流感的流行態(tài)勢。自2 0 0 9 年以來,G ?!P徒涍^3 次升級,其預測偏差得到了有效糾正。本文綜述了G f v r 模型預測流感的原理,模型升級的策略,及其對公共衛(wèi)生的意義。【關鍵詞】公共衛(wèi)生;預測;大數據;谷歌流感預測G o o g l eF l uT r e n d s —t h e i I I i t
3、i a I a p p n ∞t i o no fb i gd a t a i np u b I i ch e a l t h Z b u 尉o o ^ u i ,2 h “耽咖i ,y n 幾g k i ,.s 危u №f o 昭.A k £i o 眥f 脅謝£u 把如r Ⅵr n Z D 厶e n s e C o 凡f r o f o n d 尸n 移e n 砌幾,m i 聊s e &凡£e r 加rD 如e 0 5 ec o 凡£
4、r o f 帆d P r e 口帆渤凡,B e 咖增J D 2 2 0 6 ,C ^ i mC o r ,_ e 印o n d 西增。M £危o rJ s ^ “l(fā) ,u e f o ,l 為—E } ,孔Ⅱi ! ? ,博^ “@ c 凡i c .o ,侈c 凡【A b s t r a c t 】 G o 0 9 1 e F l uT r e n d s ( G F T ) w a st h ef i r s t a p p l i
5、c a t i o no f b i gd a t ai n t h ep u b l i c h e a l t hf i e l d .G F T w a s o p e n o n l i n ei n2 0 0 9a n d a t t r a c t e dw o r l d w i d ea t t e n t i o n i m m e d i a t e l y .H o w e v e r ,G F Tf a i l
6、e dc a t c h i n gt h e2 0 0 9p a n d e m i cH 1 N 1a n dk e p to v e r e s t i m a t i n gt h ei n t e n s i t vo f i n n u e n z a —l i k ei 1 1 n e s si nt h e 2 0 1 2 —2 0 1 4s e a s o ni nt h eU n i t e dS t a t e s
7、 .G I 叮m o d e lh a sb e e nu p d a t e df b rt h r e et i m e ss i n c e2 0 0 9 ,m a k i n gi t s p r e d i c t i o nb i a s c o n t r o l l e d .H e r e ,w es u m m a r i z e dt h em e c h a n i s mG I 叩w o r k e d ,t
8、h es t r a t e g yG F T u s e dt ou p d a t e ,a n di t si n n u e n c e o np u b l i ch e a l t h .【K e yw o r d s 】 P u b l i ch e a l I h ; F o r e c a s t i n g ; B i gd a t a ; G o o g l eF 1 uT r e n d s2 l 世紀是大數據的
9、時代,大數據也稱巨量數據,指利用常規(guī)工具無法獲得、儲存、處理和分析的數據集合,常常需要一系列的技術和手段整合才能挖掘其內部價值,具有多樣性、復雜性和數據量龐大的特點?。這種定義非常主觀,因為你無法定義數據量超過多少即為大數據。我們只能確定,隨著技術的進步,大數據包含的內容也會不斷擴大。大數據無疑是下一輪創(chuàng)新、競爭和生產力進步的前沿陣地。在亞馬遜、沃爾瑪、特斯科等巨頭相繼通過實例證明了大數據的威力后?,作為互聯網時代王者的谷歌公司當然不甘
10、落后,在2 0 0 8 年1 1 月上線了“谷歌流感預測( G 0 0 9 l eF 1 uT r e n d s ,G F ’r r ) ”。谷歌公司關于G F T 的論文發(fā)表在國際著名期刊《自然》( №£u 旭) 上,迄今為止該論文已被引用了l 0 0 0 多次Ⅲ。一、G F T 的原理G F T 的運行原理很簡單:如果一個人患了流感,那么他很可能上網搜索流感相關信息。通過監(jiān)測一個地區(qū)某些與流感相關檢索詞的數量,就有可能估計出該地區(qū)
11、流感流行的情況。當然,并不是每個檢索流感的人都會患流感,但是將制所D O I :1 0 .3 7 6 0 /c m a .j .i s s n .0 2 5 3 —9 6 2 4 .2 0 1 5 .0 6 .0 2 6基金項目:國家科技重大專項( 2 0 1 4 Z X l 0 0 0 4 0 0 2 )作者單位:1 0 2 2 0 6 北京,中國疾病預防控制中心病毒病預防控通信作者:舒躍龍,E m a i l :y s h u @
12、c n i c ?g .c n· 5 8 1·.綜述.所有的流感相關的檢索詞匯總后,就會發(fā)現有一些詞匯在流感流行的高峰期檢索總數目明顯升高,通過計算這些詞匯被檢索的頻率,就有可能獲得該地區(qū)流感流行的趨勢”l 。G F T r 據此建立了模型來預測某個地區(qū)居民流感樣病例( I n n u e n z a —l i k e i l l n e s s ,I L I ) 相關的就診比例,即I L I 相關的就診比例。自變量
13、為相同地區(qū)I L I 相關的檢索詞被檢索的頻率,對該地區(qū)I L I 就診概率與I L I 相關檢索詞的檢索率取對數并擬合出一個線性模型”l 。以美國c D c 流感監(jiān)測網絡數據作為模型中因變量,谷歌對其數據庫中的50 0 0 萬個常用檢索詞分別進行擬合,并根據擬合的效果打分,然后由一種自動選擇程序根據檢索詞得分的高低自動排序。為了確定哪些檢索詞應該被G 丌模型所采納和作為其評估I L I 流行的依據,谷歌依次取前Ⅳ個打分最高的檢索詞的搜
14、索次數的總和來評估模型預測I L I 流行的能力,將預測的結果與美國C D C 2 0 0 3 至2 0 0 7 年監(jiān)測到結果相比較,結果發(fā)現Ⅳ= 4 5時,模型預測結果與美國c D c I L I 監(jiān)測結果最為相似。因此,谷歌將這4 5 個檢索詞作為G f Y r 模型監(jiān)測的對象,并依據他們的檢索量來預測I L I 的流行趨勢( 圖1 ) 。依據該預測模型,G F T r 可以在1d 之后給出每周的流感流行報告,這比美國C D C 的
15、I L I 官方報告早了1 0 ~1 4 d 。二、G F T 預測I L I 的準確性G 丌模型在2 0 0 8 年季度預測的結果與美國C D CI L I 監(jiān)測結果高度相關,其相關系數達到了0 .9 7 | z - 。因此,谷歌在2 0 0 8 年1 1 月正式上線了G 丌( G f Y r1 .0 ) ,在開始運行的幾個萬方數據生堡亟隨醫(yī)堂基盍2 Q 1 5 生§月笙壘! 鲞箜§期£h i ! 』£塑! 叢!
16、d :』g n l 2 Q 1 5 ,y Q ! :塑,盥! :§過美國C D CI L I 監(jiān)測結果來評估的。有證據顯示,在甲型H l N l 流感流行的第一波,門診病例I L l 的比例( 6 1 %) 高于第二波( 4 3 %) ,這可能與在疫情初期人們更加敏感,有輕微癥狀時也會去就診,這有可能造成C D C I L I 數據比實際I L I發(fā)生率偏高,進而造成G 盯預測結果的偏低”4 。“。第三,在一個新型流感流行的初
17、期,一些“非常規(guī)”的與疫情相關的詞匯有可能得到大量檢索。如甲型H l N l 流感流行期間,“豬流感”等詞匯被大量檢索,但這類詞匯的檢索趨勢與先前季節(jié)性流感流行的趨勢并不相關,因而并未計入G f Y I ’1 .0模型,導致了G 丌預測結果的偏差。認識到G 丌1 .0 存在的問題后,谷歌分別在2 0 0 9 年9 月( G F T l l2 .0 ) 和2 0 1 3 年1 0 月( G F v r3 .0 ) 對G F v r 進行了
18、升級。但G F v r 2 .0 和G F T3 .0 持續(xù)高估了近兩年美國流感流行程度,盡管G 丌3 .0 預測偏差較G F 1 r 1 1 2 .0 低。有研究認為2 0 1 2 —2 0 1 3 年媒體對流感的高漲報道是造成G F T 預測過高的原因,包括2 0 1 3 年1 月紐約州因流感活動加強而宣布進入公共衛(wèi)生緊急狀態(tài)等事件,促使大量未患流感的人檢索流感相關詞匯u “。媒體報道會影響G F T 預測結果,但媒體在2 0 0
19、5 —2 0 0 6 年對H 5 N 1 禽流感和在2 0 0 9 年對甲型H l N l 流感的報道程度更甚于2 0 1 2 —2 0 1 3 年,而G f v r 預測結果并未偏高。因此,造成G f v l l 預測過高另有其他原因。造成G 丌2 .0 及G ?!? .0 預測過高最有可能原因是谷歌搜索算法本身一l 。谷歌掌握著互聯網領域最先進的搜索技術,其算法并不是一成不變的。谷歌的T 程師不斷修正其算法以提供更好的商業(yè)服務。谷歌
20、的商業(yè)模式包括兩部分,一方面為用戶快速提供有用的信息,另一方面,獲得更多的廣告收入,谷歌的搜索算法也是根據這兩個目的進行改進,而這勢必會影響到某些檢索詞“自發(fā)的”檢索量。如谷歌的“推薦搜索”,是根據其他人的搜索記錄推薦用戶某些檢索詞,這種“推薦搜索”的服務會增加某些檢索詞非自發(fā)的檢索量增加,對G 丌預測產生不利影響。谷歌在第二次模型升級后將關鍵詞數目提高到了1 6 0 個,加之谷歌的關鍵詞提示搜索,會引導人們使用相似的檢索詞,導致某些檢
21、索詞的搜索次數呈指數升高,從而導致預測結果偏高。六、G F T 對公共衛(wèi)生的啟示G F T 是大數據應用領域的一次耀眼嘗試,使大數據在公共衛(wèi)生領域真正從理論走向實際,因而從上線之日起就獲得了巨大關注。盡管在最近兩年其預測結果_ } f { 現偏差,但總體預測結果與美國c D c IL I 監(jiān)測結果相關。隨著模型的不斷升級,G 盯預測偏差得到了明屁的控制,因此在大數據時代,技術的進步總會不斷地解決層_ 【f { 不窮的問題。G 丌預測流感
22、的成就也促使其他信息巨頭嘗試利用自己掌握的數據來預測流感,如T w i I I e r 通過監(jiān)測患者抱怨疾病的信息來預測疾病的發(fā)生情況,其對流感的預測結果與傳統方法監(jiān)測到結果高度相關”7 l ;又如維基百科通過監(jiān)測流感相關網頁每天瀏覽的比率來預測美國I L I 流行水平,該模型在媒體熱點時期和季節(jié)性流感嚴重流行期均表現良好”?。此外,在移動互聯網上,谷歌也有新的動作,在2 0 1 4 年6 月· 5 8 3的谷歌開發(fā)者年度會議
23、上,谷歌發(fā)布了G o o g l e F i t 應用平臺”,。該平臺可使手機上的A P P 具備監(jiān)測用戶的健康數據的能力,甚至根據監(jiān)測結果給用戶提f { { 針對性的建議。作為谷歌公司的老對手,蘋果公司在早些時候宣布擴展其H e a l t h K i t 健康平臺,該平臺能將用戶的健康和身體數據直接傳送至醫(yī)療中心的數據庫,利用大數據評估用戶的健康指標”?。大數據時代有可能將徹底改變我們的傳染病監(jiān)測模式,例如當某種傳染病開始暴發(fā)時,及
24、早發(fā)現并采取干預措施非常重要,傳統的監(jiān)測網絡依靠報告和匯總,其速度遠遠不能滿足快速反應的需要;而大數據網絡對疾病的監(jiān)測幾乎是實時的,像G 丌這類監(jiān)測T - 具能在一天后評估某地區(qū)疾病流行情況,因此這種全面快速的監(jiān)測方式將使公共衛(wèi)生監(jiān)控的變得更加靈敏。又比如傳統的監(jiān)測方法僅能覆蓋一個國家或者一個地區(qū)的若干國家,而類似G 盯這樣的公共衛(wèi)生監(jiān)測T 具能監(jiān)測到全球大部分地區(qū),為全球防控提供數據。如大數據收集和分析系統H e a l t h m
25、a p ,通過收集媒體、政府部門、學術期刊、智能手機應用上面的傳染病信息來監(jiān)測和顯示全球的傳染病暴發(fā)情況。H e a l t h m a p 在2 0 1 4年3 月便監(jiān)測到關于西非出血熱的報道,隨后被w H 0 鑒定為埃博拉m 血熱”?。當然,大數據在公共衛(wèi)生領域的應用還需要解決很多關鍵問題,首先是“大數據傲慢”問題一l 。“大數據傲慢”指潛意識里認為大數據可以替代,而不是補充,傳統的數據收集和分析方法?!按髷祿谅笔且环N錯誤的思維
26、方式,誤認為大數據模式算m 的“統計學相關性”能直接取代事物之間真實的因果和聯系,從而過度應用和相信這種技術。換言之,即認為大數據可以解決一切數據收集和分析的問題,傳統的方法已落后、過時,應該予以摒棄。然而事實上,數據量上的大并不意味著可以忽略數據測量的基礎問題,以及數據的有效性、可靠性和獨立性。另外越是大數據時代,越是有可能帶來壟斷,因為只有那些特別強大的公司才會在大數據時代有所作為,但這帶來的直接后果就是公眾一直擔心這些大數據及分析
27、方法掌握在大公司手上是否合適。此外,這些公司對個人數據的收集、使用及存儲的法律依據,是否侵犯了個人隱私、數據所有權等依然存在爭議。谷歌公司一直拒絕公布G 門所采納的檢索詞,也未說明G 丌數據是如何收集和采用的,因此其他科學家也無法重復G 丌預測結果”o 】。G 胛數據上的不透明也是谷歌公司最受詬病的地方,正如《哈佛商業(yè)評論》所說的那樣,“如果一個公司想參與科學事業(yè),那么他應該表現的像個科學家”””。但是大數據無疑是未來發(fā)展的趨勢,大數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療衛(wèi)生領域大數據應用探討_周光華.pdf
- 公共衛(wèi)生領域調查問卷的無紙化信息采集在Android平臺的解決方案.pdf
- 醫(yī)療衛(wèi)生領域公共部門的職能
- 我國公共衛(wèi)生領域系統評價的計量學分析及質量評價.pdf
- 美國公共衛(wèi)生領域公私合作伙伴關系研究(1987-2008).pdf
- 物聯網在醫(yī)療衛(wèi)生領域中的應用
- 公私合作伙伴關系在衛(wèi)生領域的應用與探索
- 面向衛(wèi)生領域的區(qū)域信息資源規(guī)劃研究.pdf
- 公共衛(wèi)生服務
- 基本公共衛(wèi)生
- 醫(yī)療衛(wèi)生領域貪賄犯罪的懲防研究
- 大數據在健康醫(yī)療領域的應用現狀
- 公共衛(wèi)生培訓
- 公共衛(wèi)生考試
- 公共衛(wèi)生概述
- 2016年級公共衛(wèi)生基本公共衛(wèi)生專項
- 公共衛(wèi)生學院2011級公共衛(wèi)生碩士mph
- 2018流感防治培訓測試試題及答案-(公共衛(wèi)生科 )
- 加強醫(yī)療衛(wèi)生領域廉潔風險防控工作的思考
- gis基于ehr在公共衛(wèi)生中的應用
評論
0/150
提交評論