4大數據時代-思維變革---3更好_第1頁
已閱讀1頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、,,,,,1. 大數據時代的思維變革,,,,,,,,1. 大數據時代的思維變革——更好,“更好”——不是因果關系,而是相關關系,知道“是什么”就夠了,沒必要知道“為什么”。在大數據時代,我們不必非得知道現象背后的原因,而是要讓數據自己“發(fā)聲”。,關聯物,預測的關鍵“是什么”,而不是“為什么”改變,從操作方式開始大數據,改變人類探索世界的方法,林登與亞馬遜推薦系統,1997年,林登,亞馬遜,推薦書籍1998年 “item-to-i

2、tem”協同過濾技術書評團隊被解散 評論家所創(chuàng)造的銷售業(yè)績計算機生成內容所產生的銷售業(yè)績海明威作品與菲茨杰拉德的書知道是什么就夠了,沒必要知道為什么據說亞馬遜銷售額的三分之一都是來自于它的個性化推薦系統。,關聯物,預測的關鍵,相關關系:相關關系的核心是量化兩個數據值之間的數理關系。強和弱通過給我們找到一個現象的良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。實例:沃爾瑪——蛋撻與颶風生活中的相關關系身高與前臂

3、的長度小數據時代的相關關系,,大數據時代的相關關系谷歌流感預測:5億個數學模型 建立在相關關系分析法基礎上的預測是大數據的核心。 數據驅動的關于大數據的相關關系分析法,取代了基于假想的易出錯的方法。大數據的相關關系分析法更準確、更快,而且不易受偏見的影響。,實例,FICO提出“遵從醫(yī)囑評分”一系列變量→是否按時吃藥益百利 預測個人收入信用卡交易記錄→預測個人收入 1$證明一個人的收入狀況 10$中英人壽

4、保險公司 申請人的健康隱患信用報告、市場分析報告→高血壓、糖尿病和抑郁癥 5$血液尿液樣本 130$美國折扣零售商塔吉特 懷孕預測,預測分析法一個能發(fā)現可能的流行歌曲的算法系統防止機器失效和建筑倒塌異常情況與正常情況通過找出一個關聯物并監(jiān)控它,我們就能預測未來。實例:UPS與汽車維修預測2000年,60000輛 收集和分析數據的花費比出現停產的損失小得多。,,當收集、存儲和分析數據的成本較高的時候,應該適當

5、地丟棄一些數據。醫(yī)療設備獲取病人的數據安大略理工大學 IBM 醫(yī)院卡羅琳·麥格雷戈 檢測處理即時的病人信息 早產兒病情診斷16個數據點 1260/秒在明顯感染癥狀出現的24小時之前,可發(fā)現早產兒的穩(wěn)定是病情感染前的準備..,是什么,而不是為什么,在小數據時代,相關關系分析和因果分析都不容易,都耗費巨大,都要從建立假設開始。非線性關系小數據時代,計算機能力的不足限制了非線性關系的研究實例:幸福的非線性關系

6、因果關系是否存在不費力的快速思維費力的慢性思維實例:感冒、狂犬疫苗,,我們的直接愿望就是了解因果關系。即使無因果聯系存在,我們也還是會假定其存在。研究證明,這只是我們的認知方式,與每個人的文化背景、生長環(huán)境以及教育水平是無關的。當我們看到兩件事情接連發(fā)生的時候,我們會習慣性地從因果關系的角度來看待它們??纯聪旅娴娜湓挘?,弗雷德的父母遲到了;供應商快到了;弗雷德生氣了?!ダ椎聻槭裁瓷鷼?快速思維模式使人們偏

7、向用因果聯系來看待周圍的一切,即使這種關系并不存在。冬天不戴帽子和感冒,狂犬疫苗這個例子來說,1885年7月6日,法國化學家路易·巴斯德(Louis Pasteur)接診了一個9歲的小孩約瑟夫·梅斯特(Joseph Meister),他被帶有狂犬病毒的狗咬了。巴斯德剛剛研發(fā)出狂犬疫苗,也實驗驗證過效果了。梅斯特的父母就懇求巴斯德給他們的兒子注射一針。巴斯德做了,梅斯特活了下來。發(fā)布會上,巴斯德因為把一個小男

8、孩從死神手中救出而大受褒獎。一般來說,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。,,相關關系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都是很清晰的。而我們一旦把因果關系考慮進去,這些視角就有可能被蒙蔽掉。實例:kaggle 二手車質量競賽 橙色的車因果是相關關系的一種。相關關系分析通常情況下能取代因果關系起作用,即使不可取代的情況下,它也能指導因果關系起作用。實例:曼哈頓沙井蓋的爆炸,改變,從操作開始,實例:

9、曼哈頓沙井蓋爆炸每年,因沙井蓋內部失火,紐約每年有很多沙井蓋會發(fā)生爆炸。聯合愛迪生電力公司(Con Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。2007年,聯合愛迪生電力公司向哥倫比亞大學的統計學家求助,希望他們通過對一些歷史數據的研究,預測出可能會出現問題并且需要維修的沙井蓋。,改變,從操作開始,這是一個復雜的大數據問題。僅紐約,地下電纜就有15萬公里;曼哈頓有大約51000個沙井蓋和服務設施,很多設施都是在愛迪生那

10、個時代建成的有二十分之一的電纜在1930年之前就鋪好了。1880以來的數據都保存著,卻很雜亂,,改變,從操作開始,這是一個復雜的大數據問題。僅紐約,地下電纜就有15萬公里;曼哈頓有大約51000個沙井蓋和服務設施,很多設施都是在愛迪生那個時代建成的有二十分之一的電纜在1930年之前就鋪好了。1880以來的數據都保存著,卻很雜亂,,,負責這個項目的統計學家辛西亞·魯?。–ynthia Rudin)將雜亂的數據整理

11、好給機器處理發(fā)現了大型沙井蓋爆炸的106種預警情況。在布朗克斯(Bronx)的電網測試中,他們對2008年中期之前的數據都進行了分析,并利用這些數據預測了2009年會出現問題的沙井蓋。預測效果非常好,在他們列出的前10%的高危沙井蓋名單里,有44%的沙井蓋都發(fā)生了嚴重的事故。最重要的因素是這些電纜的使用年限和有沒有出現過問題。,大數據,改變人類探索世界的方法,大量的數據從某種程度上意味著“理論的終結”?!?2008年,《連線

12、》主編克里斯·安德森大數據是在理論的基礎上形成的。理論貫穿于大數據的整個過程。數據的收集、分析、結果解讀,大數據帶來的思維方式的變化,處理的對象往往是全部數據,而不是部分數據的采樣采樣的不合理會導致預測結果的偏差,在大數據時代,依靠強大的數據處理能力,應該去處理全部的數據。不再執(zhí)迷于精確性精確的、規(guī)范化的、可以被傳統數據庫處理的數據只占全部數據的5%,必須接受不精確性才能處理另外95%的數據。錯誤的數據是客觀存在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論