第一講什么是大數(shù)據(jù)-超星數(shù)字圖書館_第1頁
已閱讀1頁,還剩76頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三講 大數(shù)據(jù)時(shí)代的變革,,作者:[英]維克托 · 邁爾-舍恩伯格 肯尼思 · 庫克耶,譯者:盛勞燕 周濤,出版:浙江人民出版社,,,,大數(shù)據(jù)時(shí)代,之擁抱,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,身處,大數(shù)據(jù)時(shí)代,!,我們已經(jīng)處在大數(shù)據(jù)時(shí)代,可能還渾然不知,維克托教授將帶我們一窺大數(shù)據(jù)時(shí)代的全景,時(shí)間就是生命!,省錢是硬道理!,,Main topic,處理數(shù)據(jù)理念的思維變革挖掘數(shù)據(jù)價(jià)值的商業(yè)變革

2、面對(duì)數(shù)據(jù)風(fēng)險(xiǎn)的管理變革,,,,大數(shù)據(jù)時(shí)代,之擁抱,首先就要轉(zhuǎn)變處理數(shù)據(jù)的理念,處理數(shù)據(jù)理念的思維變革,01,云計(jì)算能便宜、有效、高速地的對(duì)信息存儲(chǔ)、分享和挖掘,采樣分析是信息缺乏時(shí)代和信息流通受限制時(shí)代的產(chǎn)物,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,大數(shù)據(jù)時(shí)代,的思維變革,01,更多,而是全體數(shù)據(jù),不是隨機(jī)樣本,,小數(shù)據(jù)時(shí)代受制于技術(shù)只能收集與分析隨機(jī)樣本,最少的數(shù)據(jù)獲得最多的信息,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@

3、天天向Qian前,,穿孔卡片與美國人口普查美國憲法規(guī)定每10年進(jìn)行一次人口普查;美國在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總,他們獲得的很多數(shù)據(jù)都是過時(shí)的;1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來匯總數(shù)據(jù)。人口普查局和霍爾瑞斯簽訂協(xié)議,用穿孔卡片制表機(jī)來完成1890年的人口普查, 結(jié)果1年內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。,,,,大數(shù)據(jù)時(shí)代,的思維變革,01,更多,而是全體數(shù)據(jù),不是隨機(jī)樣本,,小數(shù)據(jù)時(shí)代受制

4、于技術(shù)只能收集與分析隨機(jī)樣本,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷,因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只能每十年進(jìn)行一次;隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問題變成了社會(huì)科學(xué)問題。,,,,大數(shù)據(jù)時(shí)代,

5、的思維變革,01,更多,而是全體數(shù)據(jù),不是隨機(jī)樣本,,小數(shù)據(jù)時(shí)代受制于技術(shù)只能收集與分析隨機(jī)樣本,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,采樣分析本身存在許多固有的缺陷它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn);隨機(jī)采樣不適合考察子類別的情況,當(dāng)人們想了解更深層次的細(xì)分領(lǐng)域的情況時(shí),隨機(jī)采樣的方法就不可取了;隨機(jī)采樣能更快更容易地發(fā)現(xiàn)問題,但不能回答

6、事先未考慮到的問題。隨機(jī)采樣忽視了細(xì)節(jié)考察。,,,,大數(shù)據(jù)時(shí)代,的思維變革,01,更多,而是全體數(shù)據(jù),不是隨機(jī)樣本,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,Xoom與跨境匯款異常交易報(bào)警Xoom是一個(gè)專門從事跨境匯款業(yè)務(wù)的公司,它會(huì)分析一筆交易的所有相關(guān)數(shù)據(jù);2011年,它注意到用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比正常情況多一些,系統(tǒng)于是啟動(dòng)報(bào)警;這個(gè)系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況。單獨(dú)來看,每筆交易都是合法的,但

7、是事實(shí)證明這是一個(gè)犯罪集團(tuán)在試圖詐騙,而發(fā)現(xiàn)異常的唯一方法就是,重新檢查所有的數(shù)據(jù),找出樣本分析法錯(cuò)過的信息。,大數(shù)據(jù)時(shí)代收集與分析全體數(shù)據(jù)是可行和便宜的,,,,大數(shù)據(jù)時(shí)代,的思維變革,01,更多,而是全體數(shù)據(jù),不是隨機(jī)樣本,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大列維特和他的同事馬克·達(dá)根使用了11年中超過64000場相撲比賽的記錄,發(fā)現(xiàn)了非法操縱比賽結(jié)果的情況時(shí)有發(fā)生,在

8、這個(gè)案例中,整個(gè)數(shù)據(jù)庫包含的字節(jié)量還不如一張普通的數(shù)碼照片包含得多,但卻是使用所有比賽的極大數(shù)據(jù)。,大數(shù)據(jù)時(shí)代收集與分析全體數(shù)據(jù)是可行和便宜的,,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,小數(shù)據(jù)時(shí)代因信息量少,對(duì)數(shù)據(jù)精確性更苛刻,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,執(zhí)迷于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都

9、無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,小數(shù)據(jù)時(shí)代因信息量少,對(duì)數(shù)據(jù)精確性更苛刻,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量因?yàn)槭占男畔⒘勘容^少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確。 在采樣的時(shí)候,因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)

10、果的準(zhǔn)確性。,,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,大數(shù)據(jù)時(shí)代我們需要與各種各樣的混亂做斗爭隨著數(shù)據(jù)的增加,錯(cuò)誤率也會(huì)相應(yīng)增加; 混亂還可以指格式的不一致性由于數(shù)據(jù)的高頻率而丟失了數(shù)據(jù)的精確性“大數(shù)據(jù)”通常用概率說話,而不是板著“確鑿無疑”的面孔。當(dāng)我們試圖擴(kuò)大數(shù)據(jù)規(guī)模的時(shí)候,要學(xué)會(huì)擁抱混亂。,大數(shù)據(jù)時(shí)代追求大量數(shù)據(jù),允許不精確的數(shù)據(jù),,,,大數(shù)據(jù)

11、時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效  微軟尋求改進(jìn)Word程序中語法檢查的方法,往4種常見的算法中逐漸添加數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。當(dāng)數(shù)據(jù)只有500萬的時(shí)候,有一種簡單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地,在少量數(shù)

12、據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。,大數(shù)據(jù)時(shí)代追求大量數(shù)據(jù),允許不精確的數(shù)據(jù),,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,計(jì)算機(jī)翻譯的發(fā)展冷戰(zhàn)時(shí)期,美國掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。1954年,IBM以計(jì)算機(jī)中的2

13、50個(gè)詞語和六條語法規(guī)則為基礎(chǔ),將60個(gè)俄語詞組翻譯成了英語,結(jié)果振奮人心。 后來他們意識(shí)到,翻譯比他們想象的更困難,因?yàn)闄C(jī)器翻譯不能只是讓電腦熟悉常用規(guī)則,還必須教會(huì)電腦處理特殊的語言情況。 在20世紀(jì)80年代后期,IBM提出了一個(gè)新的想法,他們試圖讓計(jì)算機(jī)自己估算一個(gè)詞或一個(gè)詞組適合于用來翻譯另一種語言中的一個(gè)詞和詞組的可能性,將大約有300萬句之多的加拿大議會(huì)資料譯成了英語和法語并出版。,大數(shù)據(jù)時(shí)代追求大量數(shù)據(jù),允許不精確的數(shù)

14、據(jù),,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,計(jì)算機(jī)翻譯的發(fā)展谷歌翻譯開始利用一個(gè)更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。谷歌翻譯系統(tǒng)為了訓(xùn)練計(jì)算機(jī),會(huì)吸收它能找到的所有翻譯。其上萬億的語料庫相當(dāng)于950億句英語,在所有的機(jī)器翻譯中,谷歌的翻譯質(zhì)量相對(duì)而言還是最好的。谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制,而

15、是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)。,大數(shù)據(jù)時(shí)代追求大量數(shù)據(jù),允許不精確的數(shù)據(jù),,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,我們掌握的數(shù)據(jù)庫越來越全面,它不再只包括我們手頭現(xiàn)象的一點(diǎn)點(diǎn)可憐的數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除

16、所有的不確定性。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性。錯(cuò)誤性并不是大數(shù)據(jù)本身固有的。它只是我們用來測量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷,是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問題,并且有可能長期存在,大數(shù)據(jù)時(shí)代追求大量數(shù)據(jù),允許不精確的數(shù)據(jù),,,,大數(shù)據(jù)時(shí)代,的思維變革,02,更雜,而是混雜性,不是精確性,,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,麻省理工與通貨緊縮預(yù)測軟件 美國勞工統(tǒng)計(jì)局的人員每個(gè)月都

17、要公布消費(fèi)物價(jià)指數(shù)(CPI),用來測試通貨膨脹率;聯(lián)邦政府每年花兩億五千萬美元雇用很多人向全美90個(gè)城市的商店、辦公室打電話、發(fā)傳真甚至登門拜訪。這些數(shù)據(jù)是精確的也是有序的,但是這個(gè)采集結(jié)果的公布會(huì)有幾周的滯后。2008年的經(jīng)濟(jì)危機(jī)表明,這個(gè)滯后是致命的。MIT的兩位經(jīng)濟(jì)學(xué)家,通過一個(gè)軟件在互聯(lián)網(wǎng)上收集信息,他們每天可以收集到50萬種商品的價(jià)格。這個(gè)項(xiàng)目在2008年9月雷曼兄弟破產(chǎn)之后馬上就發(fā)現(xiàn)了通貨緊縮趨勢,然而那些依賴官方數(shù)據(jù)的人

18、直到11月份才知道這個(gè)情況。,大數(shù)據(jù)時(shí)代追求大量數(shù)據(jù),允許不精確的數(shù)據(jù),,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,大數(shù)據(jù)的核心:建立在相關(guān)關(guān)系分析基礎(chǔ)上的預(yù)測。相關(guān)關(guān)系是:A與B經(jīng)常一起發(fā)生。只要注意到B發(fā)生,就能預(yù)測A的發(fā)生。,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果

19、關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,亞馬遜推薦系統(tǒng)早期書評(píng)家使得書籍銷量猛增;嘗試根據(jù)客戶個(gè)人以前的購物喜好,通過樣本分析找到客戶之間的相似性,為其推薦具體的書籍;推薦系統(tǒng)通過找到產(chǎn)品之間的關(guān)聯(lián)性,因?yàn)楣浪憧梢蕴崆斑M(jìn)行,所以推薦系統(tǒng)快如閃電,而且適用于各種各樣的產(chǎn)品。評(píng)論家所創(chuàng)造的銷售業(yè)績和計(jì)算機(jī)生成內(nèi)容所產(chǎn)生的銷售業(yè)績的對(duì)比測試,結(jié)果通過數(shù)據(jù)推薦

20、產(chǎn)品所增加的銷售遠(yuǎn)遠(yuǎn)超過書評(píng)家的貢獻(xiàn)。,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加。 通過給我們找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物, 相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測未來。如果A

21、和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了,就可以預(yù)測A也發(fā)生了。 關(guān)聯(lián)物,預(yù)測的關(guān)鍵,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,沃爾瑪,請(qǐng)把蛋撻與颶風(fēng)用品擺在一起2004年,沃爾瑪對(duì)歷史交易記錄這個(gè)龐大的數(shù)據(jù)庫進(jìn)行了觀察,這個(gè)數(shù)據(jù)庫記錄的不僅包括每一個(gè)顧客的購物清單以及消費(fèi)額,還包括購

22、物籃中的物品、具體購買時(shí)間,甚至購買當(dāng)日的天氣。 沃爾瑪公司注意到,每當(dāng)在季節(jié)性颶風(fēng)來臨之前,不僅手電筒銷售量增加了,而且蛋撻的銷量也增加了。因此,當(dāng)季節(jié)性風(fēng)暴來臨時(shí),沃爾瑪會(huì)把庫存的蛋撻放在靠近颶風(fēng)用品的位置,以方便行色匆匆的顧客從而增加銷量。,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前

23、,小數(shù)據(jù)時(shí)代,相關(guān)關(guān)系就已經(jīng)被證明大有用途但由于數(shù)據(jù)很少而且收集數(shù)據(jù)很費(fèi)時(shí)費(fèi)力,所以統(tǒng)計(jì)學(xué)家們喜歡找到一個(gè)關(guān)聯(lián)物,然后收集與之相關(guān)的數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析來評(píng)測這個(gè)關(guān)聯(lián)物的優(yōu)劣如何尋找這個(gè)關(guān)聯(lián)物呢?除了依靠相關(guān)關(guān)系,專家們還會(huì)使用一些建立在理論基礎(chǔ)上的假想來指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。 在大數(shù)據(jù)時(shí)代,復(fù)雜的機(jī)器分析能為我們辨認(rèn)出誰是最好的代理,就像在谷歌流感趨勢中,計(jì)算機(jī)把檢索詞條在5億個(gè)數(shù)學(xué)模型上進(jìn)行測試之后,準(zhǔn)確地找出了

24、哪些是與流感傳播最相關(guān)的詞條。,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,小數(shù)據(jù)時(shí)代,相關(guān)關(guān)系就已經(jīng)被證明大有用途但由于數(shù)據(jù)很少而且收集數(shù)據(jù)很費(fèi)時(shí)費(fèi)力,所以統(tǒng)計(jì)學(xué)家們喜歡找到一個(gè)關(guān)聯(lián)物,然后收集與之相關(guān)的數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析來評(píng)測這個(gè)關(guān)聯(lián)物的優(yōu)劣如何尋找這個(gè)關(guān)聯(lián)物呢?除了依靠相關(guān)關(guān)系,專家們還會(huì)

25、使用一些建立在理論基礎(chǔ)上的假想來指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。 在大數(shù)據(jù)時(shí)代,復(fù)雜的機(jī)器分析能為我們辨認(rèn)出誰是最好的代理,就像在谷歌流感趨勢中,計(jì)算機(jī)把檢索詞條在5億個(gè)數(shù)學(xué)模型上進(jìn)行測試之后,準(zhǔn)確地找出了哪些是與流感傳播最相關(guān)的詞條。,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,小數(shù)據(jù)時(shí)代,相

26、關(guān)關(guān)系就已經(jīng)被證明大有用途但由于數(shù)據(jù)很少而且收集數(shù)據(jù)很費(fèi)時(shí)費(fèi)力,所以統(tǒng)計(jì)學(xué)家們喜歡找到一個(gè)關(guān)聯(lián)物,然后收集與之相關(guān)的數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析來評(píng)測這個(gè)關(guān)聯(lián)物的優(yōu)劣如何尋找這個(gè)關(guān)聯(lián)物呢?除了依靠相關(guān)關(guān)系,專家們還會(huì)使用一些建立在理論基礎(chǔ)上的假想來指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。 在大數(shù)據(jù)時(shí)代,復(fù)雜的機(jī)器分析能為我們辨認(rèn)出誰是最好的代理,就像在谷歌流感趨勢中,計(jì)算機(jī)把檢索詞條在5億個(gè)數(shù)學(xué)模型上進(jìn)行測試之后,準(zhǔn)確地找出了哪些是與流感傳播

27、最相關(guān)的詞條。,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心美國個(gè)人消費(fèi)信用評(píng)估公司FICO,在2011年提出了“遵從醫(yī)囑評(píng)分”——它分析一系列的變量來確定這個(gè)人是否會(huì)按時(shí)吃藥,包括比方說,一個(gè)人在某地居住了多久,這個(gè)人結(jié)婚了沒有,他多久換一個(gè)工作以及他

28、是否有私家車。這個(gè)評(píng)分會(huì)幫助醫(yī)療機(jī)構(gòu)節(jié)省開支,因?yàn)樗鼈儠?huì)知道哪些人需要得到它們的用藥提醒。,,,,大數(shù)據(jù)時(shí)代,的思維變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心另一個(gè)征信機(jī)構(gòu),益百利(Experian)有一種服務(wù),可以根據(jù)個(gè)人的信用卡交易記錄預(yù)測個(gè)人的收入情況。證明一個(gè)人的收入

29、狀況要花費(fèi)10美元左右,但是益百利的預(yù)測結(jié)果售價(jià)不足1美元。 中英人壽保險(xiǎn)有限公司利用信用報(bào)告和顧客市場分析數(shù)據(jù)來作為部分申請(qǐng)人的血液和尿液分析的關(guān)聯(lián)物。這些分析結(jié)果被用來找出更有可能患高血壓、糖尿病和抑郁癥的人。其中用來分析的數(shù)據(jù)包括好幾百種生活方式的數(shù)據(jù),比如愛好、常瀏覽的網(wǎng)站、??吹墓?jié)目、收入估計(jì)等。通過利用相關(guān)關(guān)系,保險(xiǎn)公司可以在每人身上節(jié)省125美元,然而這個(gè)純數(shù)據(jù)分析法只需要花費(fèi)5美元。,,,,大數(shù)據(jù)時(shí)代,的思維

30、變革,03,更好,而是相關(guān)關(guān)系,不是因果關(guān)系,,大數(shù)據(jù)時(shí)代相關(guān)關(guān)系大放異彩,小數(shù)據(jù)時(shí)代相關(guān)關(guān)系是有用的,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,美國折扣零售商塔吉特與懷孕預(yù)測:公司的分析團(tuán)隊(duì)注意到,嬰兒禮物簽收登記簿上的婦女會(huì)在懷孕大概第三個(gè)月的時(shí)候買很多無香乳液。幾個(gè)月之后,她們會(huì)買一些營養(yǎng)品,比如鎂、鈣、鋅。公司最終找出了大概20多種關(guān)聯(lián)物,這些關(guān)聯(lián)物可以給顧客進(jìn)行“懷孕趨勢”評(píng)分。這些相關(guān)關(guān)系甚至使得零售商能夠比較準(zhǔn)

31、確地預(yù)測預(yù)產(chǎn)期,這樣就能夠在孕期的每個(gè)階段給客戶寄送相應(yīng)的優(yōu)惠券,這才是塔吉特公司的目的。  UPS與汽車修理預(yù)測 UPS國際快遞公司從2000年就開始使用預(yù)測性分析來監(jiān)測自己全美60000輛車規(guī)模的車隊(duì),這樣就能及時(shí)地進(jìn)行防御性的修理。以前UPS每兩三年就會(huì)對(duì)車輛的零件進(jìn)行定時(shí)更換。但這種方法不太有效,因?yàn)橛械牧慵]有什么毛病就被換掉了。通過監(jiān)測車輛的各個(gè)部位,UPS如今只需要更換需要更換的零件,從而節(jié)省了好幾

32、百萬美元。,,,,大數(shù)據(jù)時(shí)代,之擁抱,其次就要轉(zhuǎn)變數(shù)據(jù)價(jià)值的獲取方式,挖掘數(shù)據(jù)價(jià)值的商業(yè)變革,02,大數(shù)據(jù)時(shí)代的重要價(jià)值在數(shù)據(jù)深挖掘,數(shù)據(jù)的價(jià)值來源于萬物數(shù)據(jù)化和數(shù)據(jù)交叉復(fù)用,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,

33、大數(shù)據(jù)最早的實(shí)踐——莫里的導(dǎo)航圖,美國海軍軍官——馬修·方丹·莫里,Question:船只在水上繞彎兒不走直線? Answer:走熟悉的路線比冒險(xiǎn)走一條不熟悉而且可能 充滿危險(xiǎn)的路線要好得多 Query:很重大的遺漏和離譜的錯(cuò)誤,WWW.COMPANYSITE.COM | INFO@COMPANYSITE.COM | +12 34 567 890

34、 | LONG STREET 12345, CITY, COUNTRY,莫里對(duì)船只在水上繞彎兒不走直線而感到十分不解從大量破舊的航海日志中提取出有用的數(shù)據(jù),如:對(duì)特定日期、特定地點(diǎn)的風(fēng)、水和天氣情況的記錄。莫里整合了數(shù)據(jù)之后,把整個(gè)大西洋按經(jīng)緯度劃分成了五塊,并按月份標(biāo)出了溫度、風(fēng)速和風(fēng)向;為了提高精確度,莫里創(chuàng)建了一個(gè)標(biāo)準(zhǔn)的表格來記錄航海數(shù)據(jù)。,31,大數(shù)據(jù)最早的實(shí)踐——莫里的導(dǎo)航圖,作用: 航海路程減

35、少了三分之一左右 為第一根跨大西洋電報(bào)電纜的鋪設(shè)奠定了基礎(chǔ) 甚至應(yīng)用到了天文學(xué)領(lǐng)域——海王星的運(yùn)行軌跡,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,數(shù)據(jù),從最不可能的地方提取出來 龐大的數(shù)據(jù)庫有著小數(shù)據(jù)庫所沒有的價(jià)值,大數(shù)據(jù)的

36、核心就是挖掘出龐大的數(shù)據(jù)庫獨(dú)有的價(jià)值。莫里就深知只要相關(guān)信息能夠提取和繪制出來,那些些臟亂的航海日志就可以變成有用的數(shù)據(jù)。通過這樣的方式,他重復(fù)利用了別人眼里完全沒有意義的數(shù)據(jù)信息奧倫·埃齊奧尼對(duì)Farecast所做的事情一樣,用航空業(yè)過去的價(jià)格信息催生了一個(gè)大有賺頭的新公司;谷歌的工程師通過過去的檢索記錄預(yù)測到了流感的爆發(fā),,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可

37、量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,日本的坐姿研究與汽車防盜系統(tǒng)當(dāng)一個(gè)人坐著的時(shí)候,他的身形、姿勢和重量分布都可以量化和數(shù)據(jù)化。越水重臣等通過360個(gè)壓力傳感器以測量人對(duì)椅子施加壓力的方式。把人體坐姿特征轉(zhuǎn)化成了數(shù)據(jù),產(chǎn)生獨(dú)屬于每個(gè)乘坐者的精確數(shù)據(jù)資料。這項(xiàng)技術(shù) 作為汽車防盜系統(tǒng)安裝在汽車上。有了這個(gè)系統(tǒng)之后,汽車就能識(shí)別出駕駛者是不是車主;如果不是,系

38、統(tǒng)就會(huì)要求司機(jī)輸入密碼;如果司機(jī)無法準(zhǔn)確輸入密碼,汽車就會(huì)自動(dòng)熄火 通過匯集這些數(shù)據(jù),可以利用事故發(fā)生之前的姿勢變化情況,分析出坐姿和行駛安全之間的關(guān)系。這個(gè)系統(tǒng)同樣可以在司機(jī)疲勞駕駛的時(shí)候發(fā)出警示或者自動(dòng)剎車。同時(shí),這個(gè)系統(tǒng)不但可以發(fā)現(xiàn)車輛被盜,而且可以通過收集到的數(shù)據(jù)識(shí)別出盜賊的身份。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(

39、技術(shù))轉(zhuǎn)變到I(信息)上,數(shù)字化:模擬數(shù)據(jù)轉(zhuǎn)換成用“0”和“1”表示的二進(jìn)制碼。例:書頁的掃描,無法檢索內(nèi)容數(shù)據(jù)化:把一種現(xiàn)象轉(zhuǎn)換為可制表分析的量化形式的過程。例:書變成數(shù)據(jù)化文本,可檢索,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,數(shù)據(jù)化,不是數(shù)字化,谷歌圖書谷歌與全球最大和最著名的圖書館進(jìn)行了合作,對(duì)上百萬書籍進(jìn)行掃描,每一頁都被掃描然后存入谷歌服務(wù)器的一個(gè)高分辨率數(shù)字圖像文件中——數(shù)字化文本(不能檢索,不能分析)

40、谷歌使用了能識(shí)別數(shù)字圖像的光學(xué)字符識(shí)別軟件來識(shí)別文本的字、詞、句和段落,如此一來,書頁的數(shù)字化圖像就轉(zhuǎn)化成了數(shù)據(jù)化文本——計(jì)算機(jī)也可以處理和分析這些文本數(shù)據(jù),可以檢索和查詢,可以文本分析,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,當(dāng)方位變成數(shù)據(jù) 隨著汽車裝

41、上了無線傳感器,地理位置信息的數(shù)據(jù)化深刻變革了保險(xiǎn)的概念。在英國,車主可以根據(jù)他的實(shí)際駕駛地點(diǎn)和時(shí)間購買汽車保險(xiǎn),這種保險(xiǎn)定價(jià)法激勵(lì)投保人產(chǎn)生更好的行為習(xí)慣。同時(shí),這改變了保險(xiǎn)的基礎(chǔ),從考慮一個(gè)群體的平均風(fēng)險(xiǎn)轉(zhuǎn)變?yōu)閭€(gè)性化的分析。UPS快遞多效地利用了地理定位數(shù)據(jù)。為了使總部能在車輛出現(xiàn)晚點(diǎn)的時(shí)候跟蹤到車輛的位置和預(yù)防引擎故障,它的貨車上裝有傳感器、無線適配器和GPS。同時(shí),這些設(shè)備也方便了公司監(jiān)督管理員工并優(yōu)化行車線路。 2011年,

42、UPS的駕駛員們少跑了近4828萬公里的路程,節(jié)省了300萬加侖的燃料并且減少了3萬公噸的二氧化碳排放量。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,當(dāng)方位變成數(shù)據(jù) AirSage每天通過處理來自上百萬手機(jī)用戶的150億條位置信息,為超過100個(gè)美國城市提

43、供實(shí)時(shí)交通信息。位置信息一被數(shù)據(jù)化,新的用途就猶如雨后春筍般涌現(xiàn)出來,而新價(jià)值也會(huì)隨之不斷催生。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,當(dāng)溝通變成數(shù)據(jù) 社交網(wǎng)絡(luò)平臺(tái)不僅給我們提供了尋找和維持朋友、同事關(guān)系的場所,也將我們?nèi)粘I畹臒o形元素提取出來,再

44、轉(zhuǎn)化為可作新用途的數(shù)據(jù)。Facebook2012年擁有大約10億用戶,他們通過上千億的朋友關(guān)系網(wǎng)相互連接。這個(gè)巨大的社交網(wǎng)絡(luò)覆蓋了大約10%的全球總?cè)丝冢灰恍┫M(fèi)者信貸領(lǐng)域的創(chuàng)業(yè)公司正考慮開發(fā)以Facebook社交圖譜為依據(jù)的信用評(píng)分。研究表明個(gè)人會(huì)償還債務(wù)的可能性和其朋友會(huì)償還債務(wù)的可能性呈正相關(guān)。正應(yīng)了一句老話:物以類聚,人以群分。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可

45、量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,當(dāng)溝通變成數(shù)據(jù) 社交網(wǎng)絡(luò)平臺(tái)不僅給我們提供了尋找和維持朋友、同事關(guān)系的場所,也將我們?nèi)粘I畹臒o形元素提取出來,再轉(zhuǎn)化為可作新用途的數(shù)據(jù)。Facebook2012年擁有大約10億用戶,他們通過上千億的朋友關(guān)系網(wǎng)相互連接。這個(gè)巨大的社交網(wǎng)絡(luò)覆蓋了大約10%的全球總?cè)丝?;一些消費(fèi)者信貸領(lǐng)域的創(chuàng)業(yè)公司正考慮開發(fā)以F

46、acebook社交圖譜為依據(jù)的信用評(píng)分。研究表明個(gè)人會(huì)償還債務(wù)的可能性和其朋友會(huì)償還債務(wù)的可能性呈正相關(guān)。正應(yīng)了一句老話:物以類聚,人以群分。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,當(dāng)溝通變成數(shù)據(jù) Twitter公司實(shí)現(xiàn)了人們想法、情緒和溝通的數(shù)據(jù)化,

47、許多公司對(duì)微博做了句法分析和情感分析,獲得顧客反饋意見的匯總或?qū)I銷活動(dòng)的效果進(jìn)行判斷。 兩家對(duì)沖基金,倫敦的英國對(duì)沖基金(Derwent Capital)和加利福尼亞的MarketPsych開始分析微博的數(shù)據(jù)文本,以作為股市投資的信號(hào)。。LinkedIn將我們過去漫長的經(jīng)歷進(jìn)行了數(shù)據(jù)化處理,就像莫里轉(zhuǎn)化舊航海日志那樣,把信息轉(zhuǎn)化為對(duì)現(xiàn)在和將來的預(yù)測:我們可以認(rèn)識(shí)誰,或者哪里存在一份心儀的工作。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變

48、革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,世間萬物的數(shù)據(jù)化  “自我量化”是一項(xiàng)由一群健身迷、醫(yī)學(xué)瘋子以及技術(shù)狂人發(fā)起的運(yùn)動(dòng),通過測量身體的每一個(gè)部位和生活中的每一件事來讓生活更美好——或者至少用量化的方式來獲得新知。Zeo公司則早已制作出了世界上最大的睡眠活動(dòng)數(shù)據(jù)庫,

49、揭示了男性與女性睡眠時(shí)快速眼動(dòng)量的差異。Asthmapolis公司將一個(gè)感應(yīng)器綁定到哮喘病人佩戴的呼吸器上,通過GPS定位,再匯總收集起來的位置數(shù)據(jù),可以判斷環(huán)境因素(如接近特定的農(nóng)作物)對(duì)哮喘的影響。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,01,數(shù)據(jù)化,數(shù)據(jù)交叉復(fù)用,一切皆可量化,,變革的基礎(chǔ)一切事物都可量化,變?yōu)閿?shù)據(jù),變革的重點(diǎn)由T(技術(shù))轉(zhuǎn)變到I(信息)上,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,,世間萬物的數(shù)據(jù)化&#

50、160; Fitbit和Jawbone公司讓人們測量他們的體力活動(dòng)和睡眠。Basis公司用腕帶來監(jiān)測佩戴者的生命體征,包括其心率和皮膚電傳導(dǎo)率,以此測試他們所承受的壓力。2009年,蘋果公司就申請(qǐng)了一項(xiàng)專利,通過音頻耳塞收集關(guān)于血液氧合、心率和體溫的數(shù)據(jù)。一旦世界被數(shù)據(jù)化,就只有你想不到,而沒有信息做不到的事情了。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)

51、值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,數(shù)據(jù)的潛在價(jià)值主要通過前3種方式釋放:01.數(shù)據(jù)再利用 02.重組數(shù)據(jù) 03.可擴(kuò)展數(shù)據(jù)04 . 數(shù)據(jù)的折舊值 05 . 數(shù)據(jù)廢氣 06開放數(shù)據(jù),,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在

52、冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,數(shù)據(jù)的“潛在價(jià)值” 電動(dòng)汽車能否成功地作為一種交通工具成功普及與電池的壽命相關(guān)。但電動(dòng)汽車充電站的需求和設(shè)置點(diǎn)目前還不得而知。 IBM基于汽車的電池電量、汽車的位置、電網(wǎng)的電流消耗以及歷史功率等,開發(fā)了一套復(fù)雜的預(yù)測模型。能夠確定司機(jī)為汽車電池充電的最佳時(shí)間和地點(diǎn),并揭示充電站的最佳設(shè)置點(diǎn)。汽車的電池電

53、量指示器告訴司機(jī)應(yīng)當(dāng)何時(shí)充電,電網(wǎng)的使用數(shù)據(jù)可以通過設(shè)備收集到,從而管理電網(wǎng)的穩(wěn)定性。這些都是一些基本的用途。這兩組數(shù)據(jù)都可以找到二級(jí)用途,即新的價(jià)值。它們可以應(yīng)用于另一個(gè)完全不同的目的:確定何時(shí)何地充電以及電子汽車服務(wù)站的設(shè)置點(diǎn)。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,數(shù)據(jù)再

54、利用  數(shù)據(jù)創(chuàng)新再利用的一個(gè)典型例子是搜索關(guān)鍵詞。消費(fèi)者和搜索引擎之間的瞬時(shí)交互形成了一個(gè)網(wǎng)站和廣告的列表,實(shí)現(xiàn)了那一刻的特定功能。貌似搜索結(jié)束后就一切over了,其實(shí)不然:Hitwise公司讓客戶采集搜索流量來揭示消費(fèi)者的喜好。通過Hitwise營銷人員可以了解到粉紅色是否會(huì)成為今夏的潮流色,或者黑色是否會(huì)回歸潮流。谷歌整理了一個(gè)版本的搜索詞分析,公開供人們查詢,并與西班牙第二大銀行BBVA合作推出了實(shí)時(shí)經(jīng)濟(jì)

55、指標(biāo)以及旅游部門的業(yè)務(wù)預(yù)報(bào)服務(wù),這些指標(biāo)都是基于搜索數(shù)據(jù)得到的。英國央行通過搜索查詢房地產(chǎn)的相關(guān)信息,更好地了解到了住房價(jià)格的升降情況。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,數(shù)據(jù)重組 處于休眠狀態(tài)的數(shù)據(jù)的價(jià)值只能通過與另一個(gè)截然不同的數(shù)據(jù)集結(jié)合才能釋放出丹麥癌

56、癥協(xié)會(huì):手機(jī)是否增加致癌率。 這項(xiàng)研究分析了1990年至2007年間擁有手機(jī)的用戶共涉及358403人。該國同時(shí)記錄了所有癌癥患者的信息,在那期間共有10729名中樞神經(jīng)系統(tǒng)腫瘤患者。結(jié)合這兩個(gè)數(shù)據(jù)集后,研究人員開始尋找兩者的關(guān)系:手機(jī)用戶是否比非手機(jī)用戶顯示出較高的癌癥發(fā)病率?使用手機(jī)時(shí)間較長的用戶是否比時(shí)間較短的用戶更容易患上癌癥? 研究沒有發(fā)現(xiàn)使用移動(dòng)電話和癌癥風(fēng)險(xiǎn)增加之間存在任何關(guān)系。,,,,,大數(shù)據(jù)時(shí)代,的

57、商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,可擴(kuò)展數(shù)據(jù)促成數(shù)據(jù)再利用的方法之一是從一開始就設(shè)計(jì)好它的可擴(kuò)展性零售商在店內(nèi)安裝了監(jiān)控?cái)z像頭,這樣不僅能認(rèn)出商店扒手,還能跟蹤在商店里購物的客戶流和他們停留的位置。零售商利用后面的信息可以設(shè)計(jì)店面的最佳布局并判斷營銷活動(dòng)的有效性。谷歌街景汽車不僅拍攝了房屋

58、和道路的照片,還同時(shí)采集GPS數(shù)據(jù),檢查地圖的信息,這些數(shù)據(jù)之所以具有可擴(kuò)展性,是因?yàn)楣雀璨粌H將其用于基本用途,而且進(jìn)行了大量的二次使用。例如,GPS數(shù)據(jù)不僅優(yōu)化了其地圖服務(wù),而且對(duì)谷歌自動(dòng)駕駛汽車的運(yùn)作功不可沒。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,數(shù)據(jù)的折舊 

59、隨著數(shù)據(jù)存儲(chǔ)成本的大幅下降,企業(yè)擁有了更強(qiáng)的經(jīng)濟(jì)動(dòng)機(jī)來保存數(shù)據(jù),并再次用于相同或類似的用途。但是,其有效性是有限的。隨著時(shí)間的推移,大多數(shù)數(shù)據(jù)都會(huì)失去一部分基本用途。比如十年前你在亞馬遜買了一本書,而現(xiàn)在你可能已經(jīng)對(duì)它完全不感興趣。這就需要不斷地更新數(shù)據(jù)庫并淘汰無用信息。這時(shí)面臨的挑戰(zhàn)就是如何得知哪些數(shù)據(jù)不再有價(jià)值。然而,并非所有的數(shù)據(jù)都會(huì)貶值。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱

60、藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,數(shù)據(jù)廢氣:即人們在網(wǎng)上留下的數(shù)字軌跡,包括瀏覽了哪些頁面、停留了多久、鼠標(biāo)光標(biāo)停留的位置、輸入了什么信息等在過去的20多年中,微軟為其Word軟件開發(fā)出了一個(gè)強(qiáng)大的拼寫檢查程序,通過與頻繁更新的字典正確拼寫相比較來對(duì)用戶鍵入的字符流進(jìn)行判斷。字典囊括了所有已知詞匯,系統(tǒng)將拼寫相似但字典中沒有的詞匯判斷為拼寫錯(cuò)誤,并對(duì)其進(jìn)行

61、糾正。由于需要不斷編譯和更新字典,微軟Word的拼寫檢查僅適用于最常用的語言,且每年需要花費(fèi)數(shù)百萬美元的創(chuàng)建和維護(hù)費(fèi)用。谷歌幾乎是“免費(fèi)”地獲得了這種拼寫檢查,它依據(jù)的是其每天處理的30億查詢中輸入搜索框中的錯(cuò)誤拼寫。一個(gè)巧妙的反饋循環(huán)可以將用戶實(shí)際想輸入的內(nèi)容告知系統(tǒng)。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書

62、筆記,制作:@天天向Qian前,,,數(shù)據(jù)廢氣:即人們在網(wǎng)上留下的數(shù)字軌跡,包括瀏覽了哪些頁面、停留了多久、鼠標(biāo)光標(biāo)停留的位置、輸入了什么信息等電子書閱讀器捕捉了大量關(guān)于文學(xué)喜好和閱讀人群的數(shù)據(jù):讀者閱讀一頁或一節(jié)需要多長時(shí)間,讀者是略讀還是直接放棄閱讀,讀者是否畫線強(qiáng)調(diào)或者在空白處做了筆記,這些他們都會(huì)記錄下來。這就將閱讀這種長期被視為個(gè)人行為的動(dòng)作轉(zhuǎn)換成了一種共同經(jīng)驗(yàn)。一旦聚集起來,就可以用量化的方式向出版商和作者展示一些他們可能永

63、遠(yuǎn)都不會(huì)知道的信息,如讀者的好惡和閱讀模式。這是十分具有商業(yè)價(jià)值的。電子圖書出版公司可以將這些信息賣給出版商,從而幫助改進(jìn)書籍的內(nèi)容和結(jié)構(gòu)。,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,02,價(jià)值,之不竭的創(chuàng)新,取之不盡,用,,真實(shí)價(jià)值隱藏在冰山之下,數(shù)據(jù)價(jià)值不會(huì)隨使用次數(shù)而減少,可以重復(fù)挖掘,《大數(shù)據(jù)時(shí)代》讀書筆記,制作:@天天向Qian前,,,開放數(shù)據(jù)政府才是大規(guī)模信息的原始采集者,data.gov網(wǎng)站是美國聯(lián)邦政府的公開信息資料庫。網(wǎng)

64、站從2009年的47個(gè)數(shù)據(jù)集迅速發(fā)展起來,到2012年7月三周年時(shí),數(shù)據(jù)集已達(dá)45萬個(gè)左右,涵蓋了172個(gè)機(jī)構(gòu)。FlyOnTime的航班時(shí)間預(yù)測 :將交通運(yùn)輸局的歷史航班延誤數(shù)據(jù)和美國聯(lián)邦航空管理局的機(jī)場信息,以及美國國家海洋和大氣管理局的以往天氣報(bào)告和國家氣象服務(wù)的實(shí)時(shí)狀態(tài)結(jié)合起來,判斷惡劣天氣使某一特定機(jī)場的航班延遲的可能性有多大,,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,03,角色定位,思維的三足鼎立,數(shù)據(jù)、技術(shù)與,,,,,大數(shù)

65、據(jù)價(jià)值鏈中主要存在三種公司:01基于數(shù)據(jù)本身的公司 02基于技能的公司 03基于思維的公司,大數(shù)據(jù)早期價(jià)值來自思維和技術(shù),大數(shù)據(jù)中后期價(jià)值必須從數(shù)據(jù)本身中挖掘,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,03,角色定位,思維的三足鼎立,數(shù)據(jù)、技術(shù)與,,,,大數(shù)據(jù)早期價(jià)值來自思維和技術(shù),大數(shù)據(jù)中后期價(jià)值必須從數(shù)據(jù)本身中挖掘,大數(shù)據(jù)掌控公司:這些公司擁有大量數(shù)據(jù)或者至少可以收集到大量數(shù)據(jù),卻不一定有從數(shù)據(jù)中提取價(jià)值或者用數(shù)據(jù)催生創(chuàng)新

66、思想的技能。Twitter,它擁有海量數(shù)據(jù)這一點(diǎn)是毫無疑問的,但是它的數(shù)據(jù)都通過兩個(gè)獨(dú)立的公司授權(quán)給別人使用。 VISA和MasterCard:MasterCard Advisors收集和分析了來自210個(gè)國家的15億信用卡用戶的650億條交易記錄,用來預(yù)測商業(yè)發(fā)展和客戶的消費(fèi)趨勢。然后,它把這些分析結(jié)果賣給其他公司。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,03,角色定位,思維的三足鼎立,數(shù)據(jù)、技術(shù)與,,,,大數(shù)據(jù)早期價(jià)值來自思

67、維和技術(shù),大數(shù)據(jù)中后期價(jià)值必須從數(shù)據(jù)本身中挖掘,大數(shù)據(jù)技術(shù)公司 :擁有技術(shù)和專業(yè)技能的公司埃森哲咨詢公司:在與密蘇里州圣路易斯市共同合作的一個(gè)實(shí)驗(yàn)項(xiàng)目中,它給20輛公交車安裝了無線傳感器來監(jiān)測車輛引擎的工作情況。這些數(shù)據(jù)被用來預(yù)測公交車什么時(shí)候會(huì)拋錨以及維修的最佳時(shí)機(jī)。研究促使車輛更換零件的周期從30萬或者40萬公里變成了50萬公里,僅這一項(xiàng)研究結(jié)果就幫助該城市節(jié)省了60萬美元。沃爾瑪和Pop-Tarts這兩個(gè)零售商就是

68、借助天睿公司(Teradata)的分析來獲得營銷點(diǎn)子,天睿就是一家大數(shù)據(jù)分析公司。,,,,大數(shù)據(jù)時(shí)代,的商業(yè)變革,03,角色定位,思維的三足鼎立,數(shù)據(jù)、技術(shù)與,,,,大數(shù)據(jù)早期價(jià)值來自思維和技術(shù),大數(shù)據(jù)中后期價(jià)值必須從數(shù)據(jù)本身中挖掘,大數(shù)據(jù)思維公司和個(gè)人 :他們能先人一步發(fā)現(xiàn)機(jī)遇,盡管本身并不擁有數(shù)據(jù)也不具備專業(yè)技能。布拉德福德·克羅斯很好地解釋了什么是有大數(shù)據(jù)思維。在他20多歲的時(shí)候,他和四個(gè)朋友一起創(chuàng)辦了F

69、lightCaster.com。這個(gè)網(wǎng)站致力于預(yù)測航班是否會(huì)晚點(diǎn)。它主要基于分析過去十年里每個(gè)航班的情況,然后將其與過去和現(xiàn)實(shí)的天氣情況進(jìn)行匹配。 克羅斯后來又成立了科技創(chuàng)新公司Prismatic收集網(wǎng)上資源并排序,這種排序建立在文本分析、用戶喜好、社交網(wǎng)絡(luò)普及和大數(shù)據(jù)分析的基礎(chǔ)之上。 Prismatic關(guān)注的是年青一代與媒體進(jìn)行交流的新方法,信息的來源并不重要,而關(guān)于是否受歡迎,是通過它的點(diǎn)擊率和分享次數(shù)來體現(xiàn)的。,,,,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論