從數(shù)據(jù)挖掘到深度學(xué)習(xí)_第1頁(yè)
已閱讀1頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、從數(shù)據(jù)挖掘到深度學(xué)習(xí)——大數(shù)據(jù)建模分析的算法和應(yīng)用概述,劉豫2016-3-25,提綱,概述大數(shù)據(jù)建模分析算法和應(yīng)用數(shù)據(jù)挖掘算法簡(jiǎn)介深度學(xué)習(xí)算法簡(jiǎn)介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,實(shí)現(xiàn)基礎(chǔ):數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、分布式存儲(chǔ)、并行計(jì)算、流式計(jì)算、GPU加速……,,大數(shù)據(jù)建模分析的理論和方法,2024/3/23,如果數(shù)據(jù)是21世紀(jì)最寶貴的財(cái)富,大數(shù)據(jù)分析就是當(dāng)今最偉大的煉金術(shù),可以從前所未有的大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)前所未知的知識(shí),

2、實(shí)現(xiàn)不可限量的價(jià)值。大數(shù)據(jù)分析依賴的理論和方法主要包括傳統(tǒng)的統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘,以及近10年來(lái)逐漸發(fā)展成熟的深度學(xué)習(xí)。,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,深度學(xué)習(xí),,,,,提供特征和模型,重要的發(fā)展分支,提供數(shù)據(jù)分析技術(shù)基礎(chǔ),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的明確可預(yù)期的分析能力算法可解析,物理意義清晰,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的超越預(yù)期的分析能力算法多為啟發(fā)式的,難以分析和理解,人工學(xué)習(xí)特征人工學(xué)習(xí)規(guī)律,人工學(xué)習(xí)特征自動(dòng)學(xué)習(xí)規(guī)律,自動(dòng)學(xué)習(xí)特征自動(dòng)

3、學(xué)習(xí)規(guī)律,關(guān)于特征、規(guī)律和學(xué)習(xí),2024/3/23,大數(shù)據(jù)建模分析的本質(zhì)是通過(guò)構(gòu)建數(shù)學(xué)模型,從數(shù)據(jù)中學(xué)習(xí)特征和規(guī)律,收獲有用的知識(shí)。特征:決定數(shù)據(jù)對(duì)象所蘊(yùn)含的知識(shí)的關(guān)鍵屬性規(guī)律:將特征的表達(dá)為目標(biāo)知識(shí)的一種模式,及其參數(shù)學(xué)習(xí):從樣本數(shù)據(jù)集計(jì)算得到規(guī)律的過(guò)程,大數(shù)據(jù)建模分析的基本流程,關(guān)于學(xué)習(xí),2024/3/23,學(xué)習(xí)能力是大數(shù)據(jù)分析建模的關(guān)鍵技術(shù)之一。根據(jù)反饋的不同,學(xué)習(xí)技術(shù)可以分為監(jiān)督學(xué)習(xí)(Supervised learning

4、)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)、半監(jiān)督學(xué)習(xí)(Semi-supervised learning)和強(qiáng)化學(xué)習(xí)(Reinforcement learning)四大類(lèi)。,半監(jiān)督(Semi-supervised) 學(xué)習(xí)案例,步驟一: 用帶有標(biāo)識(shí)的圖片訓(xùn)練分類(lèi)器,步驟二: 對(duì)沒(méi)有標(biāo)識(shí)的數(shù)據(jù)進(jìn)行分類(lèi),并按照信任度從大到小進(jìn)行排序,,,步驟三: 將信任度最高的圖片自動(dòng)加入標(biāo)識(shí)項(xiàng),,步驟四: 重新訓(xùn)練分類(lèi)器并重復(fù)步驟二~步驟

5、四,,圖片分類(lèi)案例:從圖庫(kù)中識(shí)別出“日蝕”圖片。當(dāng)圖庫(kù)巨大時(shí),人工標(biāo)注耗時(shí)耗力。,提綱,概述大數(shù)據(jù)建模分析算法和應(yīng)用數(shù)據(jù)挖掘算法簡(jiǎn)介深度學(xué)習(xí)算法簡(jiǎn)介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,數(shù)據(jù)挖掘的概念和歷史,,,,,,1960s,1970s and 80s,1990s,2000s--,Data CollectionDatabase Creation,Relational Data ModelRDBMS,Data Mini

6、ngData WarehouseMultimedia DatabaseWeb Database,Stream data management and miningWeb technology (XML, data integration),SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”Bhavani(1999):“使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式

7、和趨勢(shì)的過(guò)程”Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫(kù)中尋找有意義、有價(jià)值信息的過(guò)程”Jiawei Han(韓家煒)(2000):從海量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中、人們事先不知道的、但又潛在有用的信息和知識(shí)的過(guò)程 --《數(shù)據(jù)挖掘:概念與技術(shù)》,數(shù)據(jù)挖掘定義的發(fā)展,,,,數(shù)據(jù)挖掘(Data Mining)一詞是在1989年8月召開(kāi)的第十一屆國(guó)際聯(lián)合

8、人工智能學(xué)術(shù)會(huì)議(JCAI’89)上正式形成的,其根源可追溯到經(jīng)典統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)三個(gè)學(xué)科,關(guān)系型數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)的廣泛應(yīng)用兩次推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展。,9,主要的數(shù)據(jù)挖掘算法,隨著數(shù)據(jù)挖掘應(yīng)用多年來(lái)不斷的擴(kuò)展和深化,產(chǎn)生積累了大量的數(shù)據(jù)挖掘算法。根據(jù)應(yīng)用場(chǎng)景及目標(biāo)的不同,可以將數(shù)據(jù)挖掘算法分為如下幾類(lèi)。,分類(lèi)算法,單一的分類(lèi)方法主要包括:決策樹(shù)、貝葉斯、神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機(jī)分類(lèi)等集成學(xué)習(xí)算法:組合單一分類(lèi)方法

9、如Bagging和Boosting等分類(lèi)算法需要對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行標(biāo)識(shí)、即事先確定好類(lèi)別,屬于監(jiān)督學(xué)習(xí)分類(lèi)算法的應(yīng)用場(chǎng)景:解決各種模式識(shí)別問(wèn)題圖庫(kù)軟件的圖片分類(lèi)新聞網(wǎng)站的話題分類(lèi)銀行貸款客戶的風(fēng)險(xiǎn)分類(lèi)醫(yī)院對(duì)患者病因的分類(lèi),分類(lèi)的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類(lèi)器,把未知類(lèi)別的樣本映射到給定類(lèi)別中的某一個(gè)。,分類(lèi)算法 :貝葉斯,貝葉斯貝葉斯(Bayes)分類(lèi)算法是一類(lèi)利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類(lèi)的算法,如樸素貝葉斯(Naive

10、Bayes)算法主要利用Bayes定理來(lái)預(yù)測(cè)一個(gè)未知類(lèi)別的樣本屬于各個(gè)類(lèi)別的可能性,選擇其中可能性最大的一個(gè)類(lèi)別作為該樣本的最終類(lèi)別由于貝葉斯定理的成立本身需要一個(gè)很強(qiáng)的條件獨(dú)立性假設(shè),而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,其分類(lèi)準(zhǔn)確性就會(huì)下降為此,出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類(lèi)算法,如TAN(Tree Augmented Naive Bayes)算法,可以考慮屬性間的關(guān)聯(lián)性,P(A|B)=P(B|A)*P(A)/P(B),貝

11、葉斯公式:,分類(lèi)應(yīng)用:,,P(類(lèi)別|樣本)=P(樣本|類(lèi)別)*P(類(lèi)別)=ΠP(樣本各屬性|類(lèi)別)*P(類(lèi)別),分類(lèi)算法:KNN,k-近鄰 (kNN,k-Nearest Neighbors)k-近鄰算法是一種基于實(shí)例的分類(lèi)方法該方法就是找出與未知樣本x距離最近的k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬于哪一類(lèi),就把x歸為那一類(lèi)k-近鄰方法是一種懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類(lèi)時(shí)才進(jìn)行分類(lèi),如果樣本集比較復(fù)雜,可能會(huì)導(dǎo)致很大的計(jì)算

12、開(kāi)銷(xiāo)當(dāng)樣本不平衡時(shí),如一個(gè)類(lèi)的樣本容量很大,而其他類(lèi)樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類(lèi)的樣本占多數(shù),分類(lèi)算法:SVM,支持向量機(jī) 支持向量機(jī)(SVM,Support Vector Machine)是Vapnik根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法SVM方法是通過(guò)一個(gè)非線性映射p,把樣本空間映射到一個(gè)高維乃至無(wú)窮維的特征空間中(Hilbert空間),使得在原來(lái)的樣本空間中非線性可分的問(wèn)題轉(zhuǎn)化為

13、在特征空間中的線性可分的問(wèn)題它的最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類(lèi)間隔構(gòu)造最優(yōu)分類(lèi)超平面來(lái)提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問(wèn)題SVM一般只能用在二類(lèi)問(wèn)題,對(duì)于多類(lèi)問(wèn)題效果不好,示例一,示例二,分類(lèi)算法:決策樹(shù),決策樹(shù) 決策樹(shù)是用于分類(lèi)的主要技術(shù),是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出以決策樹(shù)表示的分類(lèi)規(guī)則構(gòu)造決策樹(shù)的目的是找出屬性和類(lèi)別間的關(guān)系,用來(lái)預(yù)測(cè)

14、將來(lái)未知類(lèi)別的記錄的類(lèi)別它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論主要的決策樹(shù)算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等它們?cè)谶x擇測(cè)試屬性采用的技術(shù)、生成的決策樹(shù)的結(jié)構(gòu)、剪枝的方法以及時(shí)刻,能否處理大數(shù)據(jù)集等方面都有各自的不同之處決策樹(shù)模型的缺點(diǎn):處理缺失數(shù)據(jù)時(shí)的困難過(guò)度擬合問(wèn)題忽略數(shù)據(jù)集中屬性之

15、間的相關(guān)性,聚類(lèi)算法,劃分法(partitioning methods)給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,劃分法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類(lèi),K<N對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好使用劃分法思想的算法有:K-MEANS、K-MEDOIDS、CLARANS密度法(dens

16、ity-based methods)密度法它不是基于各種各樣的距離的,而是基于密度的克服基于距離的算法只能發(fā)現(xiàn)“類(lèi)圓形”的聚類(lèi)的缺點(diǎn)指導(dǎo)思想只要一個(gè)點(diǎn)所屬區(qū)域的密度大過(guò)某個(gè)閾值,就把它加到與之相近的聚類(lèi)中去代表算法有:DBSCAN、OPTICS、DENCLUE等層次法(hierarchical methods)將數(shù)據(jù)轉(zhuǎn)換為樹(shù)形結(jié)構(gòu),實(shí)現(xiàn)不同層次上的聚類(lèi)模型法(model-based methods)對(duì)于每個(gè)類(lèi)假定

17、一個(gè)分布模型,試圖找到每個(gè)類(lèi)最好的模型混合高斯模型GMM,聚類(lèi)算法的任務(wù)是將相似的事物分成一類(lèi),不依賴于事先確定好的組別,屬于無(wú)監(jiān)督學(xué)習(xí)。聚類(lèi)算法根據(jù)設(shè)計(jì)思想的不同主要有如下幾種。,聚類(lèi)算法:K-Means和K-Medoids,K-Meansk-Means 算法接受輸入量 k ;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為 k個(gè)聚類(lèi)以便使得所獲得的聚類(lèi)滿足:同一聚類(lèi)中的對(duì)象相似度較高;而不同聚類(lèi)中的對(duì)象相似度較小。聚類(lèi)相似度是利用各聚類(lèi)中對(duì)象的均值所獲

18、得一個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的。k-Means 算法流程:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類(lèi)中心而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類(lèi)中心的相似度(距離),分別將它們分配給與其最相似的(聚類(lèi)中心所代表的)聚類(lèi)然后再計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心(該聚類(lèi)中所有對(duì)象的均值)不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)K-Means的缺點(diǎn):產(chǎn)生類(lèi)的大小相差不會(huì)很大,對(duì)

19、于臟數(shù)據(jù)很敏感K-MEDOIDS對(duì)K-Means改進(jìn):選取一個(gè)對(duì)象叫做mediod來(lái)代替上面的中心的作用,這樣的一個(gè)medoid就標(biāo)識(shí)了這個(gè)類(lèi)在K-means中,中心點(diǎn)取為當(dāng)前cluster中所有數(shù)據(jù)點(diǎn)的平均值在 K-medoids算法中,從當(dāng)前cluster 中選取這樣一個(gè)點(diǎn)——它到其他所有(當(dāng)前cluster中的)點(diǎn)的距離之和最小——作為中心點(diǎn),聚類(lèi)算法:高斯混合模型GMM,GMM將k個(gè)高斯模型混合在一起,每個(gè)點(diǎn)出現(xiàn)的概

20、率是幾個(gè)高斯混合的結(jié)果假設(shè)有K個(gè)高斯分布,每個(gè)高斯對(duì)數(shù)據(jù)點(diǎn)的影響因子為πk,數(shù)據(jù)點(diǎn)為x,高斯參數(shù)為thetaEM(expectation maximization)算法對(duì)產(chǎn)生樣本數(shù)據(jù)的最大似然實(shí)現(xiàn)各個(gè)高斯模型估計(jì)GMM可以給出每個(gè)數(shù)據(jù)屬于各個(gè)類(lèi)型的概率,可以對(duì)non-spherical數(shù)據(jù)進(jìn)行聚類(lèi)缺點(diǎn)是計(jì)算量大,不保證全局最優(yōu),,聚類(lèi)算法:DBSCAN,DBSCAN(Density-Based Spatia

21、l Clustering of Applications with Noise)幾個(gè)定義:Ε領(lǐng)域:給定對(duì)象半徑為Ε內(nèi)的區(qū)域稱為該對(duì)象的Ε領(lǐng)域;核心對(duì)象:如果給定對(duì)象Ε領(lǐng)域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPts,則稱該對(duì)象為核心對(duì)象;直接密度可達(dá):對(duì)于樣本集合D,如果樣本點(diǎn)q在p的Ε領(lǐng)域內(nèi),并且p為核心對(duì)象,那么對(duì)象q從對(duì)象p直接密度可達(dá)。密度可達(dá):對(duì)于樣本集合D,給定一串樣本點(diǎn)p1,p2….pn,p= p1,q= pn,假如對(duì)象pi

22、從pi-1直接密度可達(dá),那么對(duì)象q從對(duì)象p密度可達(dá)。密度相連:存在樣本集合D中的一點(diǎn)o,如果對(duì)象o到對(duì)象p和對(duì)象q都是密度可達(dá)的,那么p和q密度相聯(lián)DBSCAN目的是找到密度相連對(duì)象的最大集合DBSCAN算法描述:輸入: 包含n個(gè)對(duì)象的數(shù)據(jù)庫(kù),半徑e,最少數(shù)目MinPts;輸出:所有生成的簇,達(dá)到密度要求。(1)Repeat(2)從數(shù)據(jù)庫(kù)中抽出一個(gè)未處理的點(diǎn);(3)IF抽出的點(diǎn)是核心點(diǎn) THEN 找出所有從該點(diǎn)密度可達(dá)的

23、對(duì)象,形成一個(gè)簇;(4)ELSE 抽出的點(diǎn)是邊緣點(diǎn)(非核心對(duì)象),跳出本次循環(huán),尋找下一個(gè)點(diǎn);(5)UNTIL 所有的點(diǎn)都被處理優(yōu)點(diǎn):不需要事先知道要形成的簇類(lèi)的數(shù)量可以發(fā)現(xiàn)任意形狀的簇類(lèi)能夠識(shí)別出噪聲點(diǎn)缺點(diǎn):不能適應(yīng)變化的密度,基于聚類(lèi)的應(yīng)用——用戶價(jià)值評(píng)估,數(shù)據(jù)來(lái)源和聚類(lèi)模型,數(shù)據(jù):2012年2月MM商城活躍用戶信息及相關(guān)下載記錄 聚類(lèi)維度:選擇最新下載的時(shí)間間隔(R)、下載的頻率(F)以及費(fèi)用(M)進(jìn)行聚類(lèi) 使用

24、MongoDB統(tǒng)計(jì)每個(gè)用戶對(duì)應(yīng)的3個(gè)聚類(lèi)屬性 使用Mahout的Canopy+K-means聚類(lèi)模型在Hadoop平臺(tái)計(jì)算聚類(lèi)結(jié)果,用戶信息約204萬(wàn)條,73.6MB,應(yīng)用信息約12.7萬(wàn)條,14.5MB,下載記錄約2000萬(wàn)條,1.3GB,聚類(lèi)結(jié)果和分析,算法性能,聚類(lèi)的結(jié)果將204萬(wàn)用戶分為4類(lèi),如圖所示,在3節(jié)點(diǎn)的Hadoop平臺(tái)上完成204萬(wàn)用戶的聚類(lèi)計(jì)算只需要10分鐘左右,48.6%,13.5%,22.6%,15.3%

25、,沉默型,價(jià)值型,免費(fèi)型,試探型,關(guān)聯(lián)規(guī)則挖掘算法,有關(guān)關(guān)聯(lián)關(guān)系的關(guān)鍵概念:S-事件總集,A-出現(xiàn)A的事件集,B-出現(xiàn)B的事件集,AB-同時(shí)出現(xiàn)A和B的事件集A-B可信度=|AB|/|A|支持度=|AB|/|S|期望可信度=|B|/|S|A-B作用度=A-B可信度/B期望可信度可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量,支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,作用度描述了A 對(duì)B 的影響力為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,一般需要給定兩個(gè)閾值:最小

26、支持度和最小可信度,關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是發(fā)現(xiàn)有意義的事物同時(shí)出現(xiàn)的規(guī)律。關(guān)聯(lián)規(guī)則挖掘算法屬于無(wú)監(jiān)督學(xué)習(xí)的方法。最常用的關(guān)聯(lián)規(guī)則算法有Apriori和FP-Growth兩種。,,,A,B,,S,關(guān)聯(lián)規(guī)則挖掘算法,Apriori算法從少到多生成頻繁項(xiàng),根據(jù)前一次找到的頻繁項(xiàng)來(lái)生成本次的頻繁項(xiàng),提升頻繁項(xiàng)產(chǎn)生效率缺點(diǎn):產(chǎn)生大量的候選集重復(fù)掃描數(shù)據(jù)庫(kù),關(guān)聯(lián)規(guī)則挖掘算法,FP-GrowthJ. Han等2000年提出不產(chǎn)生候選頻繁集

27、只需要兩次遍歷數(shù)據(jù)庫(kù)FP-Growth算法流程:基本思路:不斷地迭代FP-tree的構(gòu)造和投影過(guò)程。對(duì)于每個(gè)頻繁項(xiàng),構(gòu)造它的條件投影數(shù)據(jù)庫(kù)和投影FP-tree。對(duì)每個(gè)新構(gòu)建的FP-tree重復(fù)這個(gè)過(guò)程,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑。當(dāng)構(gòu)造的FP-tree為空時(shí),其前綴即為頻繁模式;當(dāng)只包含一條路徑時(shí),通過(guò)枚舉所有可能組合并與此樹(shù)的前綴連接即可得到頻繁模式,FP-Tree的生成,FP-Tree的分割,針對(duì)MM

28、2個(gè)月的日志信息,采用Mahout PFPG關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行模式挖掘,算法配置參數(shù)為:最小支持度600,最小置信度0.7,挖掘的模式數(shù)為15,具體結(jié)果如下:,模式挖掘結(jié)果:,應(yīng)用ID,置信度值%,,,,關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用,異常檢測(cè)算法,基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)算法 通常用某個(gè)統(tǒng)計(jì)分布對(duì)數(shù)據(jù)點(diǎn)進(jìn)行建模,再以假定的模型判斷點(diǎn)的分布是否存在異常單樣本多個(gè)離群檢測(cè)算法 ESD、GESR缺點(diǎn):模型擬合不準(zhǔn)確、難以解釋異常點(diǎn)基于距離的異

29、常點(diǎn)檢測(cè)算法 離群點(diǎn)被定義為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離都大于某個(gè)閾值的點(diǎn),通常被描述為 DB ( pct,d_min),數(shù)據(jù)集 T中一個(gè)記錄 O稱為離群點(diǎn),當(dāng)且僅當(dāng)數(shù)據(jù)集T中至少有 pct部分的數(shù)據(jù)與 O 的距離大于 d_min孤立點(diǎn)是數(shù)據(jù)集中到第 k 個(gè)最近鄰居的距離最大的 n 個(gè)對(duì)象 孤立點(diǎn)是數(shù)據(jù)集中與其 k 個(gè)最近鄰居的平均距離最大的 n個(gè)對(duì)象 優(yōu)點(diǎn):直觀、計(jì)算簡(jiǎn)單缺點(diǎn):參數(shù)難以確定、高維數(shù)據(jù)效果差基于密度的異常點(diǎn)

30、檢測(cè)算法 將記錄之間的距離和某一給定范圍內(nèi)記錄數(shù)這兩個(gè)參數(shù)結(jié)合起來(lái),從而得到“密度”的概念,然后根據(jù)密度判定記錄是否為離群點(diǎn)優(yōu)點(diǎn):可以發(fā)現(xiàn)局部異常,在數(shù)據(jù)庫(kù)中包含著少數(shù)的數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的一般行為或特征不一致,這些數(shù)據(jù)對(duì)象叫做異常點(diǎn) (Outlier) ,也叫做孤立點(diǎn)。異常點(diǎn)的檢測(cè)和分析是一種十分重要的數(shù)據(jù)挖掘類(lèi)型,被稱之為異常點(diǎn)挖掘。,時(shí)間序列預(yù)測(cè)算法,時(shí)間序列預(yù)測(cè)是根據(jù)過(guò)去的變化趨勢(shì)預(yù)測(cè)未來(lái)的發(fā)展,是數(shù)據(jù)挖掘的重要研究應(yīng)用

31、方向。,Trend extra-polation,PolyfitExponentialGompertzLogistic,GARCH,ARCH,Moving average,Weighted moving averageDouble moving averageExtended moving average,Exponential smoothing,SingleDoublecubic,Copula,Method-Two

32、 step-Joint-KendallFamily-Frank-Gumbel-Clayton-Gauss,Linear Regress,UnivariateMultivariate,ARIMA,AutoregressMoving AverageARMA,Medium &Long-term,General,Short-term,Trend extra-polation,Trend extra-po

33、lation,Moving average,Trend extra-polation,Trend extra-polation,Moving average,Exponential smoothing,Trend extra-polation,Trend extra-polation,1.5.1 模型庫(kù)——預(yù)測(cè)預(yù)警(示例1),計(jì)算季節(jié)性指數(shù),,計(jì)算每期的中心移動(dòng)平均值采用中位數(shù),作為概括性衡量標(biāo)準(zhǔn)調(diào)整得到季節(jié)性指數(shù),,去除季節(jié)性影響

34、,,歷史數(shù)據(jù)除以季節(jié)性指數(shù)作為預(yù)測(cè)模型的輸入,,預(yù)測(cè),,通過(guò)7類(lèi)模型對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)選擇精度最高的模型結(jié)果作為輸出,還原季節(jié)性影響,,預(yù)測(cè)序列乘以季節(jié)性指數(shù),還原季節(jié)性影響,,,,,,,2008,2009,2010,2011,2012,,2013,預(yù)測(cè)值,注:預(yù)測(cè)以歷史數(shù)據(jù)為依據(jù),未考慮4G商用、宏觀經(jīng)濟(jì)等突發(fā)事件的影響,如計(jì)算此因素對(duì)KPI的影響,可采用因素分解等模型;預(yù)測(cè)精度采用1-mean(abs((Pi-Hi)/Hi)衡量。

35、,營(yíng)運(yùn)收入預(yù)測(cè)精度 = 97.59%營(yíng)運(yùn)支出預(yù)測(cè)精度 = 98.88%,圖、營(yíng)運(yùn)收入支出的預(yù)測(cè)結(jié)果,時(shí)間序列預(yù)測(cè)應(yīng)用-運(yùn)營(yíng)收支預(yù)測(cè),提綱,概述大數(shù)據(jù)建模分析算法和應(yīng)用數(shù)據(jù)挖掘算法簡(jiǎn)介深度學(xué)習(xí)算法簡(jiǎn)介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,深度學(xué)習(xí)的概念,2024/3/23,深度學(xué)習(xí)是一種特征學(xué)習(xí)方法,把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的但是非線性的模型轉(zhuǎn)變成為更高層次的,更加抽象的表達(dá)。深度學(xué)習(xí)的實(shí)質(zhì),是通過(guò)構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模

36、型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類(lèi)或預(yù)測(cè)的準(zhǔn)確性?!吧疃饶P汀笔鞘侄?,“特征學(xué)習(xí)”是目的。?多層神經(jīng)網(wǎng)絡(luò):模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層具有超強(qiáng)的泛化能力,非常復(fù)雜的函數(shù)也可以被學(xué)習(xí),更利于發(fā)掘海量數(shù)據(jù)中蘊(yùn)藏的豐富信息自動(dòng)學(xué)習(xí)特征:各層的特征不是人工設(shè)計(jì)的,而是從數(shù)據(jù)本身中學(xué)到的同過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,使分類(lèi)或預(yù)測(cè)更加容易,,傳統(tǒng)神經(jīng)網(wǎng)絡(luò):一般

37、只有兩三層使用BP算法訓(xùn)練特征選取困難比較容易過(guò)擬合,參數(shù)比較難tune層次比較少的情況下效果并不比其它方法如SVM等更優(yōu),深度神經(jīng)網(wǎng)絡(luò):大于5層更強(qiáng)大的擬合能力有效的訓(xùn)練方法GPU/多核CPU大規(guī)模數(shù)據(jù)集,深度學(xué)習(xí)的起源和發(fā)展,2024/3/23,深度學(xué)習(xí)起源于人工智能和機(jī)器學(xué)習(xí)的研究:從20世紀(jì)50年代到70年代初,人工智能研究處于“推理期”,目標(biāo)是給機(jī)器賦予邏輯推理能力,但人們逐漸認(rèn)識(shí)到,僅具有邏輯推理能力無(wú)法

38、實(shí)現(xiàn)人工智能的,必須使機(jī)器擁有知識(shí)20世紀(jì)70年代中期開(kāi)始,人工智能進(jìn)入“知識(shí)期”,人們基于邏輯知識(shí)表示、通過(guò)領(lǐng)域知識(shí)獲取來(lái)實(shí)現(xiàn)專(zhuān)家系統(tǒng)。但是,專(zhuān)家系統(tǒng)面臨“知識(shí)工程瓶頸”,必須使機(jī)器自主學(xué)習(xí)知識(shí)20世紀(jì)80年代機(jī)器學(xué)習(xí)逐步成為人工智能研究領(lǐng)域的主流方向1980年代末期,用于人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Back Propagation算法)的發(fā)明,掀起了機(jī)器學(xué)習(xí)熱潮,各種機(jī)器學(xué)習(xí)算法在90年代大量涌現(xiàn),其中包括卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)

39、習(xí)的雛形2000年以來(lái)隨著互聯(lián)網(wǎng)的高速發(fā)展,對(duì)大數(shù)據(jù)的智能化分析和預(yù)測(cè)產(chǎn)生了巨大需求,淺層學(xué)習(xí)模型在互聯(lián)網(wǎng)應(yīng)用上獲得了巨大成功。最成功的應(yīng)用包括搜索廣告系統(tǒng)的廣告點(diǎn)擊率CTR預(yù)估、網(wǎng)頁(yè)搜索排序、垃圾郵件過(guò)濾系統(tǒng)、基于內(nèi)容的推薦系統(tǒng)等,但是神經(jīng)網(wǎng)絡(luò)模型基本被冷落,深度學(xué)習(xí)的起源和發(fā)展,2024/3/23,2006年,加拿大多倫多大學(xué)教授Geoffrey Hinton在《科學(xué)》上發(fā)表論文提出:1. 具有很多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征

40、學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫(huà),從而有利于可視化或分類(lèi);2. 深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過(guò)“逐層初始化”(Layer-wise Pre-training)來(lái)有效克服,從而開(kāi)啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮目前,深度學(xué)習(xí)的理論研究還基本處于起步階段,但在應(yīng)用領(lǐng)域已顯現(xiàn)出巨大能量2011年以來(lái),微軟研究院和Google的語(yǔ)音識(shí)別研究人員先后采用DNN技術(shù)降低語(yǔ)音識(shí)別錯(cuò)誤率20%~30%,是語(yǔ)音識(shí)別領(lǐng)域十多年來(lái)最大

41、的突破性進(jìn)展2012年開(kāi)始,DNN技術(shù)在圖像識(shí)別領(lǐng)域取得驚人的效果,2013開(kāi)始ImageNet大賽排名前列的算法都是自行學(xué)習(xí)特征的深度學(xué)習(xí)算法,在2015年多個(gè)算法擊敗了人類(lèi)2016年3月,AlphaGO在五番棋中4:1絕對(duì)優(yōu)勢(shì)擊敗李世石九段,一直以來(lái)被視作Mission Impossible的圍棋被深度學(xué)習(xí)所征服,ImageNet競(jìng)賽,2024/3/23,ImageNet提供的數(shù)據(jù)集包含約120萬(wàn)張訓(xùn)練圖像、5萬(wàn)張驗(yàn)證圖像和10

42、萬(wàn)張測(cè)試圖像,目標(biāo)是將圖像分為1000個(gè)不同的類(lèi)別。,2015年2月,微軟在ImageNet 2012分類(lèi)數(shù)據(jù)集中的錯(cuò)誤率已降低至4.94%隨后,google將錯(cuò)誤率降至4.82%2015年5月,百度宣布錯(cuò)誤率降至4.58%百度使用的超級(jí)計(jì)算機(jī)Minwa配備72個(gè)CPU處理器和144個(gè)GPU處理器,卷積神經(jīng)網(wǎng)絡(luò) Convolutional Neural Networks,CNN是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間

43、關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目,以提高一般前向BP算法的訓(xùn)練性能。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級(jí)結(jié)構(gòu)的最低層的輸入,信息再依次傳輸?shù)讲煌膶?,每層通過(guò)一個(gè)數(shù)字濾波器去獲得觀測(cè)數(shù)據(jù)的最顯著的特征。CNN能夠提取對(duì)平移、縮放和旋轉(zhuǎn)不變的觀測(cè)數(shù)據(jù)的顯著特征,在圖像處理、語(yǔ)音處理等領(lǐng)域得到了廣泛而深入的應(yīng)用。CNN使用局部鏈接和權(quán)值共享極大降低了模型的參數(shù)數(shù)量,?200x200的圖像?400,000個(gè)隱層節(jié)點(diǎn)?200

44、x200x400000=160億個(gè)參數(shù)?深度神經(jīng)網(wǎng)絡(luò)參數(shù)更多 參數(shù)太多 需要海量訓(xùn)練數(shù)據(jù),? 200x200的圖像?10x10局部(感受野)?400,000個(gè)隱層單元?10x10x400000=4千萬(wàn)個(gè)參數(shù) 模擬了神經(jīng)細(xì)胞生理機(jī)制 缺少空間不變性,局部鏈接,200x200的圖像?10個(gè)10x10的卷積核?400,000個(gè)隱層單元?10x10x10=1000個(gè)參數(shù) 每個(gè)卷積核,反

45、映了某種局部的模式,用不同的核卷積圖像就得到對(duì)圖像的不同特征,權(quán)值共享,,,Aij=Σklwklxi+k,j+l,全鏈接,卷積神經(jīng)網(wǎng)絡(luò) Convolutional Neural Networks,受Hubel和Wiesel對(duì)視皮層細(xì)胞的研究啟發(fā)簡(jiǎn)單細(xì)胞檢測(cè)局部特征復(fù)雜細(xì)胞融合感受野內(nèi)簡(jiǎn)單細(xì)胞的輸出,CNN深度學(xué)習(xí)模型由多核卷積和池化亞采樣兩個(gè)基本步驟交替構(gòu)成。,一個(gè)CNN模型的示例,在每一個(gè)位置(patch)檢測(cè)多個(gè)模式出現(xiàn)的強(qiáng)度

46、多個(gè)Feature Maps上對(duì)應(yīng)同一個(gè)patch的響應(yīng)構(gòu)成了那個(gè)patch的特征向量,,卷積神經(jīng)網(wǎng)絡(luò)到底學(xué)到了什么,2024/3/23,具體復(fù)雜,抽象簡(jiǎn)單,,卷積神經(jīng)網(wǎng)絡(luò)為什么有效,2024/3/23,具體復(fù)雜,抽象簡(jiǎn)單,,AlphaGo探秘,2024/3/23,理想:評(píng)價(jià)函數(shù)是求解Perfect Information Games的核心:V*(S) 現(xiàn)實(shí):搜索空間太大,模型計(jì)算量太大,無(wú)法遍歷求解所有可能下法,

47、無(wú)法得到完美的評(píng)價(jià)函數(shù)方案:縮減搜索空間!從深度、廣度、還有概率(手氣)三方面入手深度——近似評(píng)價(jià)函數(shù)Value: V*(S) 的一個(gè)近似,輸出的不是勝負(fù)結(jié)果而是勝率,若干步后停止廣度——策略函數(shù)Policy:預(yù)測(cè)對(duì)手落子,減少不必要的搜索范圍概率——蒙特卡羅搜索樹(shù)(MCTS):根據(jù)概率搜索收益更新勝率,在有限選項(xiàng)中計(jì)算最佳解,兩周前,AlphaGo以4:1擊敗李世石九段震驚了全世界。雖然深藍(lán)早在1997年就擊敗了國(guó)際象棋世界大

48、師,雖然理論上圍棋這種Perfect Information Games遲早會(huì)被“電腦”統(tǒng)治早已成為大家的共識(shí),無(wú)人預(yù)計(jì)圍棋頂級(jí)高手竟然會(huì)在今年就拜于“電腦”之“手”。因?yàn)閲宓乃阉骺臻g約為250^150(~10^360)遠(yuǎn)遠(yuǎn)大于國(guó)際象棋的35^80(~10^124)。,“電腦”是怎樣下棋的?,MCTS,AlphaGo探秘,2024/3/23,AlphaGo是深度學(xué)習(xí)創(chuàng)造的奇跡。 AlphaGo和前輩們比較起來(lái),表面上實(shí)在沒(méi)有

49、多少區(qū)別,它的核心三大件還是評(píng)價(jià)函數(shù)、策略函數(shù)和MCTS,但是前輩們的評(píng)價(jià)函數(shù)和策略函數(shù)都是基于線性組合的淺層模型AlphaGo本質(zhì)上就是一個(gè)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),AlphaGo將圍棋棋局視為19×19的圖片,策略函數(shù)和評(píng)價(jià)函數(shù)都使用了卷積神經(jīng)網(wǎng)絡(luò)模型(14層),卷積核為5×5,并先后使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。,AlphaGo運(yùn)行參數(shù):異步的多線程MCTS搜索,在CPU執(zhí)行搜索,在GPU執(zhí)行評(píng)價(jià)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)

50、的計(jì)算. 單機(jī)版AlphaGo :40線程,48CPUs, 8 GPUs集群版AlphaGo: 40線程,1202CPUs, 176 GPUs,關(guān)于深度學(xué)習(xí)和人工智能,AlphaGo的意義AlphaGo取得了巨大成就,但其基本機(jī)制并沒(méi)有什么顛覆性的東西AlphaGo透過(guò)深度學(xué)習(xí)能夠掌握更抽象的概念,但是計(jì)算機(jī)還是沒(méi)有自我意識(shí)與思考深度學(xué)習(xí)的局限在語(yǔ)音和圖像識(shí)別方面的超人能力預(yù)示深度學(xué)習(xí)將會(huì)成為解鎖通用人工智能的那把鑰匙的一部

51、分,但不是全部深度學(xué)習(xí)算法缺乏聯(lián)想和推理能力,對(duì)信息處理的效率與人腦仍然有質(zhì)的差距目前,包括深度學(xué)習(xí)的各種機(jī)器學(xué)習(xí)算法只有空間的概念,沒(méi)有真正的時(shí)間的概念,而常識(shí)是與時(shí)間密切相關(guān)的,人工智能必須要有時(shí)間的概念、記憶關(guān)聯(lián)的能力才能進(jìn)一步超越人類(lèi)人工智能的潛在風(fēng)險(xiǎn)全知全能的存在將嚴(yán)重沖擊人類(lèi)社會(huì)的現(xiàn)有組織結(jié)構(gòu)人類(lèi)可能永遠(yuǎn)無(wú)法理解人工智能,2024/3/23,人工智能就像一列火車(chē),它臨近時(shí)你聽(tīng)到了轟隆隆的聲音,你在不斷期待著它的到來(lái)

52、。他終于到了,一閃而過(guò),隨后便遠(yuǎn)遠(yuǎn)地把你拋在身后——王小川,提綱,概述大數(shù)據(jù)建模分析算法和應(yīng)用數(shù)據(jù)挖掘算法簡(jiǎn)介深度學(xué)習(xí)算法簡(jiǎn)介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,40,Mahout算法庫(kù),提供三方面的可擴(kuò)展性,面向大數(shù)據(jù)的可擴(kuò)展性,Mahout中的核心算法如聚類(lèi)、分類(lèi)、協(xié)同過(guò)濾等架構(gòu)在Hadoop框架下,部分算法實(shí)現(xiàn)了細(xì)粒度的并行化,面向商業(yè)的可擴(kuò)展性,開(kāi)發(fā)人員在 Apache 許可下免費(fèi)使用。也可以通過(guò)獲得商業(yè)許

53、可,用于商用,面向開(kāi)發(fā)社區(qū)的可擴(kuò)展性,Mahout的宗旨是構(gòu)建一個(gè)活躍的、快速響應(yīng)的、多元性的開(kāi)發(fā)者社區(qū),討論項(xiàng)目本身及應(yīng)用,,Classification:分類(lèi)算法Clustering:聚類(lèi)算法Pattern Mining:模式挖掘Regression:回歸算法Dimension reduction:降維算法Evolutionary Algorithms:進(jìn)化算法Collaborative Filtering:協(xié)同過(guò)濾算法

54、Vector Similarity:向量相似度計(jì)算,已實(shí)現(xiàn)基于Hadoop的數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)算法,Mahout 是 Apache Software Foundation(ASF) 旗下的一個(gè)開(kāi)源項(xiàng)目,提供大量的可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)。由于Mahout是Hadoop 生態(tài)系統(tǒng)的標(biāo)準(zhǔn)算法庫(kù),二者結(jié)合緊密,Mahout算法可以有效地應(yīng)用到Hadoop集群。,41,Mahout算法庫(kù),2015.4.11Mahout發(fā)布0.1

55、0.0版本,帶來(lái)兩點(diǎn)很重要的變化一個(gè)全新的數(shù)學(xué)環(huán)境Samsara Matlab風(fēng)格,可基于Spark運(yùn)行未來(lái)轉(zhuǎn)向Scala+Spark,所有算法將基于Scala語(yǔ)言重構(gòu)Scala特點(diǎn):函數(shù)式編程:Scala是函數(shù)式編程語(yǔ)言,函數(shù)可以獨(dú)立存在,支持純函數(shù)Actor 并行模型,解放死鎖代碼量顯著降低,JAVA的1/5-1/2Spark的優(yōu)點(diǎn):速度:DAG(Directed Acyclic Graph)、線程模型的任務(wù)調(diào)度

56、模式:更好支持迭代算法RDD內(nèi)存計(jì)算:基于內(nèi)存共享數(shù)據(jù),數(shù)據(jù)控制更靈活一棧式處理batch、Ad-hoc、Streaming、Graph等各種類(lèi)型的業(yè)務(wù)未來(lái)Mahout三大組件Samsara+Scala/Spark算法+MR算法,Spark MLlib,2024/3/23,MLlib是基于spark之上算法組件,基于spark平臺(tái)來(lái)實(shí)現(xiàn),主要的機(jī)器學(xué)習(xí)的算法目前在MLlib中都已經(jīng)提供了,包括分類(lèi)回歸、聚類(lèi)、關(guān)聯(lián)規(guī)則、推薦、降

57、維、優(yōu)化、特征抽取篩選、用于特征預(yù)處理的數(shù)理統(tǒng)計(jì)方法,以及算法評(píng)測(cè)框架。Mllib提供了Java, Scala, Python, and SparkR語(yǔ)言接口可以應(yīng)用于HDFS、HBase等Hadoop數(shù)據(jù)源,Theano,2024/3/23,Theano是一個(gè)Python庫(kù),專(zhuān)門(mén)用于定義、優(yōu)化、求值數(shù)學(xué)表達(dá)式,效率高,適用于多維數(shù)組。雖然并不是為深度學(xué)習(xí)而生,它可以實(shí)現(xiàn)各種各樣的數(shù)學(xué)抽象,但Theano提供的數(shù)學(xué)計(jì)算方面的特性使得

58、編寫(xiě)深度學(xué)習(xí)模型更加容易,因此在深度學(xué)習(xí)的研究和應(yīng)用領(lǐng)域得到了廣泛的使用。提供透明的GPU應(yīng)用接口,充分利用GPU浮點(diǎn)計(jì)算和矩陣運(yùn)算能力有助于加速深度學(xué)習(xí),浮點(diǎn)運(yùn)算相對(duì)CPU實(shí)現(xiàn)140倍性能提升研究人員基于Theano,開(kāi)發(fā)了為數(shù)眾多的專(zhuān)門(mén)的深度學(xué)習(xí)的算法包,使得深度學(xué)習(xí)應(yīng)用的開(kāi)發(fā)更加簡(jiǎn)便Keras:簡(jiǎn)約的、高度模塊化的神經(jīng)網(wǎng)絡(luò)庫(kù),支持卷積網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò),同時(shí)支持GPU和CPU運(yùn)算Lasagne:易于使用和擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù),重

59、點(diǎn)集中在前饋神經(jīng)網(wǎng)絡(luò)Nolearn:兼容Scikit-learn庫(kù)APINeuroLab:類(lèi)似Matlabapi的神經(jīng)網(wǎng)絡(luò)庫(kù),包含遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)實(shí)現(xiàn)的不同變體,提綱,背景概述大數(shù)據(jù)建模分析算法和應(yīng)用數(shù)據(jù)挖掘算法簡(jiǎn)介深度學(xué)習(xí)算法簡(jiǎn)介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,海量O域數(shù)據(jù)蘊(yùn)含無(wú)窮的應(yīng)用潛能,2024/3/23,中國(guó)移動(dòng)數(shù)據(jù)分布在B/O/M域等IT系統(tǒng)、各基

60、地/專(zhuān)業(yè)公司業(yè)務(wù)平臺(tái)中,截至2015年底,中國(guó)移動(dòng)全網(wǎng)數(shù)據(jù)總量規(guī)模約137PB,預(yù)計(jì)到2016年底,中國(guó)移動(dòng)全網(wǎng)數(shù)據(jù)總量規(guī)模約210PB。其中O域數(shù)據(jù)占比最大,包括DPI、信令xDR、MR、OMC等眾多數(shù)據(jù)來(lái)源,預(yù)計(jì)2016年底,O域數(shù)據(jù)存量將達(dá)到176PB,占中國(guó)移動(dòng)大數(shù)據(jù)存量的85%。DPI數(shù)據(jù)是中國(guó)移動(dòng)大數(shù)據(jù)最主要來(lái)源,其日增量約為6816TB,占當(dāng)前中國(guó)移動(dòng)數(shù)據(jù)增量的94%。浩瀚無(wú)邊的O域數(shù)據(jù)為大數(shù)據(jù)分析應(yīng)用提供了無(wú)窮無(wú)盡

61、的可能,為了充分挖掘其中的價(jià)值,大數(shù)據(jù)建模分析將成為最重要的手段,在未來(lái)發(fā)揮極為重要的作用。,DPI貫通網(wǎng)絡(luò)各個(gè)專(zhuān)業(yè),蘊(yùn)含了網(wǎng)絡(luò)、用戶、市場(chǎng)多個(gè)維度的豐富信息。,O域大數(shù)據(jù)分析的挑戰(zhàn)和思路,2024/3/23,1,2,3,O域大數(shù)據(jù)是一座多礦種共生的高價(jià)值富礦,但開(kāi)采、提煉和應(yīng)用的難度不低,需要投入大量的工作和努力,才能真正充分發(fā)掘其中的價(jià)值。,Devops促成大數(shù)據(jù)應(yīng)用百花齊放,2024/3/23,從2006年Hinton教授發(fā)表深度

62、學(xué)習(xí)革命性的論文,到深度學(xué)習(xí)模型真正在產(chǎn)業(yè)界得到認(rèn)可和應(yīng)用,耗費(fèi)了學(xué)術(shù)界和業(yè)界頂級(jí)專(zhuān)家7年的時(shí)間,并最終在近兩年創(chuàng)造了舉世矚目的成績(jī)。O域大數(shù)據(jù)建模分析挑戰(zhàn)很大,但價(jià)值也很大,是實(shí)踐Devops戰(zhàn)略轉(zhuǎn)型和自主研發(fā)的重要方向,是未來(lái)中國(guó)移動(dòng)的自主核心競(jìng)爭(zhēng)力關(guān)鍵構(gòu)成。歡迎對(duì)大數(shù)據(jù)分析應(yīng)用感興趣的同事參加網(wǎng)管支撐處組織的技術(shù)沙龍活動(dòng),大家共同學(xué)習(xí),共同進(jìn)步!請(qǐng)郵件聯(lián)系:劉豫 liuyu@chinamobile.com,謝謝,2024

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論