版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生堡亟隨醫(yī)堂苤志2 Q 1 5 生§旦筮塑鲞筮§期£叢Ⅱ』£翌! 叢趟:』! ! 12 Q ! 』,y ! ! :塑,盟! :魚(yú)谷歌流感預(yù)測(cè)——大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的嘗試鄒曉輝朱聞斐楊磊舒躍龍【摘要】谷歌流感預(yù)測(cè)( G o o g l eF l uT r e n d s ,G F v r ) 是大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的首次嘗試,自2 0 0 9年上線以來(lái),受到了各方的廣泛關(guān)注。上線初期,G 丌預(yù)測(cè)結(jié)果與美國(guó)c D c
2、數(shù)據(jù)高度相關(guān),但隨后G F T 未能預(yù)測(cè)到2 0 0 9 年甲流大流行,并在2 叭2 —2 0 1 4 年季度持續(xù)高估了美國(guó)流感的流行態(tài)勢(shì)。自2 0 0 9 年以來(lái),G ?!P徒?jīng)過(guò)3 次升級(jí),其預(yù)測(cè)偏差得到了有效糾正。本文綜述了G f v r 模型預(yù)測(cè)流感的原理,模型升級(jí)的策略,及其對(duì)公共衛(wèi)生的意義。【關(guān)鍵詞】公共衛(wèi)生;預(yù)測(cè);大數(shù)據(jù);谷歌流感預(yù)測(cè)G o o g l eF l uT r e n d s —t h e i I I i t
3、i a I a p p n ∞t i o no fb i gd a t a i np u b I i ch e a l t h Z b u 尉o o ^ u i ,2 h “耽咖i ,y n 幾g k i ,.s 危u №f o 昭.A k £i o 眥f 脅謝£u 把如r Ⅵr n Z D 厶e n s e C o 凡f r o f o n d 尸n 移e n 砌幾,m i 聊s e &凡£e r 加rD 如e 0 5 ec o 凡£
4、r o f 帆d P r e 口帆渤凡,B e 咖增J D 2 2 0 6 ,C ^ i mC o r ,_ e 印o n d 西增。M £危o rJ s ^ “l(fā) ,u e f o ,l 為—E } ,孔Ⅱi ! ? ,博^ “@ c 凡i c .o ,侈c 凡【A b s t r a c t 】 G o 0 9 1 e F l uT r e n d s ( G F T ) w a st h ef i r s t a p p l i
5、c a t i o no f b i gd a t ai n t h ep u b l i c h e a l t hf i e l d .G F T w a s o p e n o n l i n ei n2 0 0 9a n d a t t r a c t e dw o r l d w i d ea t t e n t i o n i m m e d i a t e l y .H o w e v e r ,G F Tf a i l
6、e dc a t c h i n gt h e2 0 0 9p a n d e m i cH 1 N 1a n dk e p to v e r e s t i m a t i n gt h ei n t e n s i t vo f i n n u e n z a —l i k ei 1 1 n e s si nt h e 2 0 1 2 —2 0 1 4s e a s o ni nt h eU n i t e dS t a t e s
7、 .G I 叮m o d e lh a sb e e nu p d a t e df b rt h r e et i m e ss i n c e2 0 0 9 ,m a k i n gi t s p r e d i c t i o nb i a s c o n t r o l l e d .H e r e ,w es u m m a r i z e dt h em e c h a n i s mG I 叩w o r k e d ,t
8、h es t r a t e g yG F T u s e dt ou p d a t e ,a n di t si n n u e n c e o np u b l i ch e a l t h .【K e yw o r d s 】 P u b l i ch e a l I h ; F o r e c a s t i n g ; B i gd a t a ; G o o g l eF 1 uT r e n d s2 l 世紀(jì)是大數(shù)據(jù)的
9、時(shí)代,大數(shù)據(jù)也稱巨量數(shù)據(jù),指利用常規(guī)工具無(wú)法獲得、儲(chǔ)存、處理和分析的數(shù)據(jù)集合,常常需要一系列的技術(shù)和手段整合才能挖掘其內(nèi)部?jī)r(jià)值,具有多樣性、復(fù)雜性和數(shù)據(jù)量龐大的特點(diǎn)?。這種定義非常主觀,因?yàn)槟銦o(wú)法定義數(shù)據(jù)量超過(guò)多少即為大數(shù)據(jù)。我們只能確定,隨著技術(shù)的進(jìn)步,大數(shù)據(jù)包含的內(nèi)容也會(huì)不斷擴(kuò)大。大數(shù)據(jù)無(wú)疑是下一輪創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力進(jìn)步的前沿陣地。在亞馬遜、沃爾瑪、特斯科等巨頭相繼通過(guò)實(shí)例證明了大數(shù)據(jù)的威力后?,作為互聯(lián)網(wǎng)時(shí)代王者的谷歌公司當(dāng)然不甘
10、落后,在2 0 0 8 年1 1 月上線了“谷歌流感預(yù)測(cè)( G 0 0 9 l eF 1 uT r e n d s ,G F ’r r ) ”。谷歌公司關(guān)于G F T 的論文發(fā)表在國(guó)際著名期刊《自然》( №£u 旭) 上,迄今為止該論文已被引用了l 0 0 0 多次Ⅲ。一、G F T 的原理G F T 的運(yùn)行原理很簡(jiǎn)單:如果一個(gè)人患了流感,那么他很可能上網(wǎng)搜索流感相關(guān)信息。通過(guò)監(jiān)測(cè)一個(gè)地區(qū)某些與流感相關(guān)檢索詞的數(shù)量,就有可能估計(jì)出該地區(qū)
11、流感流行的情況。當(dāng)然,并不是每個(gè)檢索流感的人都會(huì)患流感,但是將制所D O I :1 0 .3 7 6 0 /c m a .j .i s s n .0 2 5 3 —9 6 2 4 .2 0 1 5 .0 6 .0 2 6基金項(xiàng)目:國(guó)家科技重大專項(xiàng)( 2 0 1 4 Z X l 0 0 0 4 0 0 2 )作者單位:1 0 2 2 0 6 北京,中國(guó)疾病預(yù)防控制中心病毒病預(yù)防控通信作者:舒躍龍,E m a i l :y s h u @
12、c n i c ?g .c n· 5 8 1·.綜述.所有的流感相關(guān)的檢索詞匯總后,就會(huì)發(fā)現(xiàn)有一些詞匯在流感流行的高峰期檢索總數(shù)目明顯升高,通過(guò)計(jì)算這些詞匯被檢索的頻率,就有可能獲得該地區(qū)流感流行的趨勢(shì)”l 。G F T r 據(jù)此建立了模型來(lái)預(yù)測(cè)某個(gè)地區(qū)居民流感樣病例( I n n u e n z a —l i k e i l l n e s s ,I L I ) 相關(guān)的就診比例,即I L I 相關(guān)的就診比例。自變量
13、為相同地區(qū)I L I 相關(guān)的檢索詞被檢索的頻率,對(duì)該地區(qū)I L I 就診概率與I L I 相關(guān)檢索詞的檢索率取對(duì)數(shù)并擬合出一個(gè)線性模型”l 。以美國(guó)c D c 流感監(jiān)測(cè)網(wǎng)絡(luò)數(shù)據(jù)作為模型中因變量,谷歌對(duì)其數(shù)據(jù)庫(kù)中的50 0 0 萬(wàn)個(gè)常用檢索詞分別進(jìn)行擬合,并根據(jù)擬合的效果打分,然后由一種自動(dòng)選擇程序根據(jù)檢索詞得分的高低自動(dòng)排序。為了確定哪些檢索詞應(yīng)該被G 丌模型所采納和作為其評(píng)估I L I 流行的依據(jù),谷歌依次取前Ⅳ個(gè)打分最高的檢索詞的搜
14、索次數(shù)的總和來(lái)評(píng)估模型預(yù)測(cè)I L I 流行的能力,將預(yù)測(cè)的結(jié)果與美國(guó)C D C 2 0 0 3 至2 0 0 7 年監(jiān)測(cè)到結(jié)果相比較,結(jié)果發(fā)現(xiàn)Ⅳ= 4 5時(shí),模型預(yù)測(cè)結(jié)果與美國(guó)c D c I L I 監(jiān)測(cè)結(jié)果最為相似。因此,谷歌將這4 5 個(gè)檢索詞作為G f Y r 模型監(jiān)測(cè)的對(duì)象,并依據(jù)他們的檢索量來(lái)預(yù)測(cè)I L I 的流行趨勢(shì)( 圖1 ) 。依據(jù)該預(yù)測(cè)模型,G F T r 可以在1d 之后給出每周的流感流行報(bào)告,這比美國(guó)C D C 的
15、I L I 官方報(bào)告早了1 0 ~1 4 d 。二、G F T 預(yù)測(cè)I L I 的準(zhǔn)確性G 丌模型在2 0 0 8 年季度預(yù)測(cè)的結(jié)果與美國(guó)C D CI L I 監(jiān)測(cè)結(jié)果高度相關(guān),其相關(guān)系數(shù)達(dá)到了0 .9 7 | z - 。因此,谷歌在2 0 0 8 年1 1 月正式上線了G 丌( G f Y r1 .0 ) ,在開(kāi)始運(yùn)行的幾個(gè)萬(wàn)方數(shù)據(jù)生堡亟隨醫(yī)堂基盍2 Q 1 5 生§月笙壘! 鲞箜§期£h i ! 』£塑! 叢!
16、d :』g n l 2 Q 1 5 ,y Q ! :塑,盥! :§過(guò)美國(guó)C D CI L I 監(jiān)測(cè)結(jié)果來(lái)評(píng)估的。有證據(jù)顯示,在甲型H l N l 流感流行的第一波,門診病例I L l 的比例( 6 1 %) 高于第二波( 4 3 %) ,這可能與在疫情初期人們更加敏感,有輕微癥狀時(shí)也會(huì)去就診,這有可能造成C D C I L I 數(shù)據(jù)比實(shí)際I L I發(fā)生率偏高,進(jìn)而造成G 盯預(yù)測(cè)結(jié)果的偏低”4 ?!?。第三,在一個(gè)新型流感流行的初
17、期,一些“非常規(guī)”的與疫情相關(guān)的詞匯有可能得到大量檢索。如甲型H l N l 流感流行期間,“豬流感”等詞匯被大量檢索,但這類詞匯的檢索趨勢(shì)與先前季節(jié)性流感流行的趨勢(shì)并不相關(guān),因而并未計(jì)入G f Y I ’1 .0模型,導(dǎo)致了G 丌預(yù)測(cè)結(jié)果的偏差。認(rèn)識(shí)到G 丌1 .0 存在的問(wèn)題后,谷歌分別在2 0 0 9 年9 月( G F T l l2 .0 ) 和2 0 1 3 年1 0 月( G F v r3 .0 ) 對(duì)G F v r 進(jìn)行了
18、升級(jí)。但G F v r 2 .0 和G F T3 .0 持續(xù)高估了近兩年美國(guó)流感流行程度,盡管G 丌3 .0 預(yù)測(cè)偏差較G F 1 r 1 1 2 .0 低。有研究認(rèn)為2 0 1 2 —2 0 1 3 年媒體對(duì)流感的高漲報(bào)道是造成G F T 預(yù)測(cè)過(guò)高的原因,包括2 0 1 3 年1 月紐約州因流感活動(dòng)加強(qiáng)而宣布進(jìn)入公共衛(wèi)生緊急狀態(tài)等事件,促使大量未患流感的人檢索流感相關(guān)詞匯u “。媒體報(bào)道會(huì)影響G F T 預(yù)測(cè)結(jié)果,但媒體在2 0 0
19、5 —2 0 0 6 年對(duì)H 5 N 1 禽流感和在2 0 0 9 年對(duì)甲型H l N l 流感的報(bào)道程度更甚于2 0 1 2 —2 0 1 3 年,而G f v r 預(yù)測(cè)結(jié)果并未偏高。因此,造成G f v l l 預(yù)測(cè)過(guò)高另有其他原因。造成G 丌2 .0 及G ?!? .0 預(yù)測(cè)過(guò)高最有可能原因是谷歌搜索算法本身一l 。谷歌掌握著互聯(lián)網(wǎng)領(lǐng)域最先進(jìn)的搜索技術(shù),其算法并不是一成不變的。谷歌的T 程師不斷修正其算法以提供更好的商業(yè)服務(wù)。谷歌
20、的商業(yè)模式包括兩部分,一方面為用戶快速提供有用的信息,另一方面,獲得更多的廣告收入,谷歌的搜索算法也是根據(jù)這兩個(gè)目的進(jìn)行改進(jìn),而這勢(shì)必會(huì)影響到某些檢索詞“自發(fā)的”檢索量。如谷歌的“推薦搜索”,是根據(jù)其他人的搜索記錄推薦用戶某些檢索詞,這種“推薦搜索”的服務(wù)會(huì)增加某些檢索詞非自發(fā)的檢索量增加,對(duì)G 丌預(yù)測(cè)產(chǎn)生不利影響。谷歌在第二次模型升級(jí)后將關(guān)鍵詞數(shù)目提高到了1 6 0 個(gè),加之谷歌的關(guān)鍵詞提示搜索,會(huì)引導(dǎo)人們使用相似的檢索詞,導(dǎo)致某些檢
21、索詞的搜索次數(shù)呈指數(shù)升高,從而導(dǎo)致預(yù)測(cè)結(jié)果偏高。六、G F T 對(duì)公共衛(wèi)生的啟示G F T 是大數(shù)據(jù)應(yīng)用領(lǐng)域的一次耀眼嘗試,使大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域真正從理論走向?qū)嶋H,因而從上線之日起就獲得了巨大關(guān)注。盡管在最近兩年其預(yù)測(cè)結(jié)果_ } f { 現(xiàn)偏差,但總體預(yù)測(cè)結(jié)果與美國(guó)c D c IL I 監(jiān)測(cè)結(jié)果相關(guān)。隨著模型的不斷升級(jí),G 盯預(yù)測(cè)偏差得到了明屁的控制,因此在大數(shù)據(jù)時(shí)代,技術(shù)的進(jìn)步總會(huì)不斷地解決層_ 【f { 不窮的問(wèn)題。G 丌預(yù)測(cè)流感
22、的成就也促使其他信息巨頭嘗試?yán)米约赫莆盏臄?shù)據(jù)來(lái)預(yù)測(cè)流感,如T w i I I e r 通過(guò)監(jiān)測(cè)患者抱怨疾病的信息來(lái)預(yù)測(cè)疾病的發(fā)生情況,其對(duì)流感的預(yù)測(cè)結(jié)果與傳統(tǒng)方法監(jiān)測(cè)到結(jié)果高度相關(guān)”7 l ;又如維基百科通過(guò)監(jiān)測(cè)流感相關(guān)網(wǎng)頁(yè)每天瀏覽的比率來(lái)預(yù)測(cè)美國(guó)I L I 流行水平,該模型在媒體熱點(diǎn)時(shí)期和季節(jié)性流感嚴(yán)重流行期均表現(xiàn)良好”?。此外,在移動(dòng)互聯(lián)網(wǎng)上,谷歌也有新的動(dòng)作,在2 0 1 4 年6 月· 5 8 3的谷歌開(kāi)發(fā)者年度會(huì)議
23、上,谷歌發(fā)布了G o o g l e F i t 應(yīng)用平臺(tái)”,。該平臺(tái)可使手機(jī)上的A P P 具備監(jiān)測(cè)用戶的健康數(shù)據(jù)的能力,甚至根據(jù)監(jiān)測(cè)結(jié)果給用戶提f { { 針對(duì)性的建議。作為谷歌公司的老對(duì)手,蘋(píng)果公司在早些時(shí)候宣布擴(kuò)展其H e a l t h K i t 健康平臺(tái),該平臺(tái)能將用戶的健康和身體數(shù)據(jù)直接傳送至醫(yī)療中心的數(shù)據(jù)庫(kù),利用大數(shù)據(jù)評(píng)估用戶的健康指標(biāo)”?。大數(shù)據(jù)時(shí)代有可能將徹底改變我們的傳染病監(jiān)測(cè)模式,例如當(dāng)某種傳染病開(kāi)始暴發(fā)時(shí),及
24、早發(fā)現(xiàn)并采取干預(yù)措施非常重要,傳統(tǒng)的監(jiān)測(cè)網(wǎng)絡(luò)依靠報(bào)告和匯總,其速度遠(yuǎn)遠(yuǎn)不能滿足快速反應(yīng)的需要;而大數(shù)據(jù)網(wǎng)絡(luò)對(duì)疾病的監(jiān)測(cè)幾乎是實(shí)時(shí)的,像G 丌這類監(jiān)測(cè)T - 具能在一天后評(píng)估某地區(qū)疾病流行情況,因此這種全面快速的監(jiān)測(cè)方式將使公共衛(wèi)生監(jiān)控的變得更加靈敏。又比如傳統(tǒng)的監(jiān)測(cè)方法僅能覆蓋一個(gè)國(guó)家或者一個(gè)地區(qū)的若干國(guó)家,而類似G 盯這樣的公共衛(wèi)生監(jiān)測(cè)T 具能監(jiān)測(cè)到全球大部分地區(qū),為全球防控提供數(shù)據(jù)。如大數(shù)據(jù)收集和分析系統(tǒng)H e a l t h m
25、a p ,通過(guò)收集媒體、政府部門、學(xué)術(shù)期刊、智能手機(jī)應(yīng)用上面的傳染病信息來(lái)監(jiān)測(cè)和顯示全球的傳染病暴發(fā)情況。H e a l t h m a p 在2 0 1 4年3 月便監(jiān)測(cè)到關(guān)于西非出血熱的報(bào)道,隨后被w H 0 鑒定為埃博拉m 血熱”?。當(dāng)然,大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的應(yīng)用還需要解決很多關(guān)鍵問(wèn)題,首先是“大數(shù)據(jù)傲慢”問(wèn)題一l ?!按髷?shù)據(jù)傲慢”指潛意識(shí)里認(rèn)為大數(shù)據(jù)可以替代,而不是補(bǔ)充,傳統(tǒng)的數(shù)據(jù)收集和分析方法?!按髷?shù)據(jù)傲慢”是一種錯(cuò)誤的思維
26、方式,誤認(rèn)為大數(shù)據(jù)模式算m 的“統(tǒng)計(jì)學(xué)相關(guān)性”能直接取代事物之間真實(shí)的因果和聯(lián)系,從而過(guò)度應(yīng)用和相信這種技術(shù)。換言之,即認(rèn)為大數(shù)據(jù)可以解決一切數(shù)據(jù)收集和分析的問(wèn)題,傳統(tǒng)的方法已落后、過(guò)時(shí),應(yīng)該予以摒棄。然而事實(shí)上,數(shù)據(jù)量上的大并不意味著可以忽略數(shù)據(jù)測(cè)量的基礎(chǔ)問(wèn)題,以及數(shù)據(jù)的有效性、可靠性和獨(dú)立性。另外越是大數(shù)據(jù)時(shí)代,越是有可能帶來(lái)壟斷,因?yàn)橹挥心切┨貏e強(qiáng)大的公司才會(huì)在大數(shù)據(jù)時(shí)代有所作為,但這帶來(lái)的直接后果就是公眾一直擔(dān)心這些大數(shù)據(jù)及分析
27、方法掌握在大公司手上是否合適。此外,這些公司對(duì)個(gè)人數(shù)據(jù)的收集、使用及存儲(chǔ)的法律依據(jù),是否侵犯了個(gè)人隱私、數(shù)據(jù)所有權(quán)等依然存在爭(zhēng)議。谷歌公司一直拒絕公布G 門所采納的檢索詞,也未說(shuō)明G 丌數(shù)據(jù)是如何收集和采用的,因此其他科學(xué)家也無(wú)法重復(fù)G 丌預(yù)測(cè)結(jié)果”o 】。G 胛數(shù)據(jù)上的不透明也是谷歌公司最受詬病的地方,正如《哈佛商業(yè)評(píng)論》所說(shuō)的那樣,“如果一個(gè)公司想?yún)⑴c科學(xué)事業(yè),那么他應(yīng)該表現(xiàn)的像個(gè)科學(xué)家”””。但是大數(shù)據(jù)無(wú)疑是未來(lái)發(fā)展的趨勢(shì),大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用探討_周光華.pdf
- 公共衛(wèi)生領(lǐng)域調(diào)查問(wèn)卷的無(wú)紙化信息采集在Android平臺(tái)的解決方案.pdf
- 醫(yī)療衛(wèi)生領(lǐng)域公共部門的職能
- 我國(guó)公共衛(wèi)生領(lǐng)域系統(tǒng)評(píng)價(jià)的計(jì)量學(xué)分析及質(zhì)量評(píng)價(jià).pdf
- 美國(guó)公共衛(wèi)生領(lǐng)域公私合作伙伴關(guān)系研究(1987-2008).pdf
- 物聯(lián)網(wǎng)在醫(yī)療衛(wèi)生領(lǐng)域中的應(yīng)用
- 公私合作伙伴關(guān)系在衛(wèi)生領(lǐng)域的應(yīng)用與探索
- 面向衛(wèi)生領(lǐng)域的區(qū)域信息資源規(guī)劃研究.pdf
- 公共衛(wèi)生服務(wù)
- 基本公共衛(wèi)生
- 醫(yī)療衛(wèi)生領(lǐng)域貪賄犯罪的懲防研究
- 大數(shù)據(jù)在健康醫(yī)療領(lǐng)域的應(yīng)用現(xiàn)狀
- 公共衛(wèi)生培訓(xùn)
- 公共衛(wèi)生考試
- 公共衛(wèi)生概述
- 2016年級(jí)公共衛(wèi)生基本公共衛(wèi)生專項(xiàng)
- 公共衛(wèi)生學(xué)院2011級(jí)公共衛(wèi)生碩士mph
- 2018流感防治培訓(xùn)測(cè)試試題及答案-(公共衛(wèi)生科 )
- 加強(qiáng)醫(yī)療衛(wèi)生領(lǐng)域廉潔風(fēng)險(xiǎn)防控工作的思考
- gis基于ehr在公共衛(wèi)生中的應(yīng)用
評(píng)論
0/150
提交評(píng)論