版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多媒體數(shù)據(jù)挖掘—WEB挖掘,一.多媒體數(shù)據(jù)挖掘的概念 多媒體數(shù)據(jù)挖掘是:將數(shù)據(jù)挖掘技術(shù)和多媒體信息處理技術(shù)有機地結(jié)合起來形成的在多媒體數(shù)據(jù)中進(jìn)行知識發(fā)現(xiàn)的信息處理方法。從大量的多媒體數(shù)據(jù)集中,通過綜合分析視聽特性和語義,發(fā)現(xiàn)隱含的、有效的、有價值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問題求解層次的決策支持能力。 基于多媒體數(shù)據(jù)的內(nèi)容特性C,以及這些特性的相關(guān)語義,從大型多媒體集M中,發(fā)現(xiàn)和分析出隱含
2、的、有效的、有價值的、可理解的模式P??梢猿橄蟮匕淹诰蛴枚嗑S特征空間的一種映射f來表示: f(M|C)?P,圖像挖掘 (視覺特性,空間特性) 視頻挖掘(時間特性,視頻對象特性,運動特性) 音頻挖掘 WEB挖掘(內(nèi)容挖掘,結(jié)構(gòu)挖掘,日志挖掘) 多媒體綜合挖掘(挖掘過程的各階段,綜合利用多媒 體的特性進(jìn)行知識發(fā)現(xiàn)。使有機的復(fù)合效果大
3、 于效果之和),二.多媒體挖掘的內(nèi)容,,1.Web數(shù)據(jù)挖掘 Web Mining (Web挖掘)這個術(shù)語是由Etzioni于1996年首先提出來的。Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web上的應(yīng)用,它利用數(shù)據(jù)挖掘技術(shù)從與Web相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術(shù)、數(shù)據(jù)挖掘、計算機語言學(xué)、信息學(xué)等多個領(lǐng)域,是一項綜合技術(shù)。2. Web數(shù)據(jù)挖掘的分類 作為Web的
4、對象,Web數(shù)據(jù)包含了內(nèi)容數(shù)據(jù)(content data)、結(jié)構(gòu)數(shù)據(jù)(structure data)和日志數(shù)據(jù)(usage data)三種類型。因此,根據(jù)Web數(shù)據(jù)源類型的不同,Web挖掘可以分為:Web內(nèi)容挖掘(Web Content Mining), Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web日志挖掘(Web Usage,Mining).Web數(shù)據(jù)挖掘如圖所示:,2.1 Web內(nèi)容挖掘 是對
5、Web頁面數(shù)據(jù)(包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù))的挖掘。Internet有各種類型的服務(wù)和數(shù)據(jù)源,如:WWW, FTP, Telnet等,現(xiàn)在有更多的內(nèi)容如:政府信息服務(wù)、數(shù)字圖書館、電子商務(wù)數(shù)據(jù)及其他各種通過Web形式訪問的數(shù)據(jù)庫。 Web內(nèi)容挖掘一般從兩個角度進(jìn)行研究:從用戶的角度,研究怎樣提高信息質(zhì)量和幫助用戶過濾信息;從DB的角度,研究怎樣對Web上的數(shù)據(jù)進(jìn)行集成、建模,以支持對Web數(shù)據(jù)的復(fù)
6、雜查詢。,Web內(nèi)容挖掘是從Web資源中發(fā)現(xiàn)信息或知識的過程。在創(chuàng)建個性化服務(wù)系統(tǒng)時,人們通常應(yīng)用Web內(nèi)容挖掘?qū)W(wǎng)頁內(nèi)容進(jìn)行分析,其中網(wǎng)頁的自動分類技術(shù)在搜索引擎、數(shù)字化圖書館等領(lǐng)域得到了廣泛的應(yīng)用。2.2 Web結(jié)構(gòu)挖掘 Web結(jié)構(gòu)挖掘的對象是Web本身的超連接,包括頁面內(nèi)部的結(jié)構(gòu)以及頁面之間的結(jié)構(gòu)。對于給定的Web文檔集合,運用引用分析方法找到同一網(wǎng)站內(nèi)部以及不同網(wǎng)站之間的連接關(guān)系,通過算法發(fā)現(xiàn)他們之間連接情況的有用
7、信息。挖掘Web結(jié)構(gòu)信息對于導(dǎo)航用戶瀏覽行為、改進(jìn)站點設(shè)計評價頁面的重要性等都非常重要。Web結(jié)構(gòu)挖掘通常需要整個Web的全局?jǐn)?shù)據(jù),因此在個性化搜索引擎或主題搜,索引擎研究領(lǐng)域得到了廣泛的應(yīng)用。如一個站點的入鏈數(shù)目遠(yuǎn)大于出鏈數(shù)目,那么這個站點可能是服務(wù)器;如果一個頁面經(jīng)常被引用,那么可以反映該頁面的流行程度和重要性等。,2.3 Web日志挖掘(Web usage Mining) Web日志挖掘的對象是Web使用記錄數(shù)據(jù),除了
8、服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點擊流等一切用戶與站點之間可能的交互記錄,因此Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。通過挖掘相關(guān)的Web日志記錄,從中發(fā)現(xiàn)用戶訪問Web頁面的模式;通過分析日志記錄中的規(guī)律,來識別用戶的忠實度、喜好、滿意度,從中發(fā)現(xiàn)潛在用戶,增強站點的服務(wù)競爭力。 Web日志挖掘?qū)υ磾?shù)據(jù)的處理方法
9、可以分為兩,類,一種是將Web使用記錄數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法進(jìn)行常規(guī)挖掘;另一種是將Web使用記錄數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘。 Web日志挖掘技術(shù)通??梢詰?yīng)用到兩個領(lǐng)域:當(dāng)用來分析Web服務(wù)器的訪問日志時,可以利用挖掘得到的服務(wù)模型來設(shè)計適應(yīng)性Web站點;當(dāng)應(yīng)用到單個用戶時,通過分析用戶的訪問歷史來發(fā)現(xiàn)有用的用戶訪問模式。Web日志挖掘由于處理數(shù)據(jù)對象通常為用戶的訪問歷史或服務(wù)器的訪問日志,無法得知
10、數(shù)據(jù)對象代表的內(nèi)容,得到的結(jié)果一般比較粗糙,但是由于該方法比較成熟而且實現(xiàn)起來也較內(nèi)容挖掘簡單,在個性化系統(tǒng)中也得到了較廣泛的應(yīng)用。,3.WEB數(shù)據(jù)挖掘的流程 數(shù)據(jù)采集 數(shù)據(jù)預(yù)處理 模式挖掘 模式評估,,3.1數(shù)據(jù)采集 Web挖掘的數(shù)據(jù)源來自于Web頁面上的信息、Web訪問形式的數(shù)據(jù)庫、Web頁面內(nèi)部的結(jié)構(gòu)以及頁面之間的結(jié)構(gòu)信息以及Web服務(wù)器上的使用記錄數(shù)據(jù),如服務(wù)器日志、用戶會話信息、交
11、易信息等。Web數(shù)據(jù)挖掘,針對不同的采集對象,需要應(yīng)用不同的數(shù)據(jù)采集技術(shù)。,3.2數(shù)據(jù)預(yù)處理 一般收集的數(shù)據(jù)都具有不一致性、冗余性、模糊性及不完整性,需要對收集的數(shù)據(jù)進(jìn)行必要的預(yù)處理,清除“臟”數(shù)據(jù),準(zhǔn)備正確、完整、干凈的數(shù)據(jù)源,通過挖掘算法,獲得真實有效的挖掘模式。數(shù)據(jù)預(yù)處理主要包括: (1)數(shù)據(jù)清理:填充遺漏值,平滑噪聲數(shù)據(jù),識別離群點和刪除噪聲數(shù)據(jù),修正不一致數(shù)據(jù); (2)數(shù)據(jù)集成:將多個數(shù)據(jù)庫或文件,
12、整合成語義完整的數(shù)據(jù)集,監(jiān)測和消除數(shù)值沖突,消除重復(fù)和冗余的數(shù)據(jù); (3)數(shù)據(jù)轉(zhuǎn)換:從數(shù)據(jù)中刪除噪聲,給特定的屬性構(gòu)造新的屬性;,(4)數(shù)據(jù)離散化:針對數(shù)值型數(shù)據(jù),將一個連續(xù)的范圍劃分成多個區(qū)間。3.3模式挖掘 應(yīng)用不同的Web挖掘算法或機器學(xué)習(xí)技術(shù)發(fā)現(xiàn)用戶訪問模式。常用的挖掘技術(shù)主要有以下幾種: (1)回歸分析:主要用于了解自變量(independent variable)與因變量(dependent v
13、ariable)間的數(shù)量關(guān)系。主要目的:1)了解自變量與因變量關(guān)系方向及強度。2)以自變量建立模型對因變量作預(yù)測。 (2)關(guān)聯(lián)規(guī)則:分析發(fā)現(xiàn)數(shù)據(jù)庫中不同變量或個體之間的關(guān)系程度(概率大小),用這些規(guī)則找出行為模型。關(guān)聯(lián)規(guī)則中的兩個重要參數(shù)是:支持度(Support)和可信度(Confidence)。Apriori算法,,利用循序漸進(jìn)的方式,找出數(shù)據(jù)庫中項目的關(guān)系,以形成規(guī)則,是最具代表性的算法之一。 (3)聚類
14、分析:統(tǒng)計學(xué)家通常應(yīng)用聚類分析法來對數(shù)據(jù)做簡化的工作及分類,從而把相似的個體(觀測物)歸于一類。 (4)決策樹分析:利用概率論的原理,并且利用樹形圖作為分析工具(用決策點代表決策問題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結(jié)果),經(jīng)過對各種方案在各種結(jié)果條件下?lián)p益值的計算比較,為決策者提供決策依據(jù)。 (5)時間序列分析:從大量的時間數(shù)據(jù)序列中提取人們不知道的,但潛在有用的、與時間
15、相關(guān)的信息,用于揭示其內(nèi)在規(guī)律(如波動的周期、振幅、趨勢的,種類等),進(jìn)而完成預(yù)測行為,指導(dǎo)未來決策。3.4模式評估 對挖掘得出的所有模式進(jìn)行分析、評價、解釋,并將有趣模式轉(zhuǎn)化為可直觀表示的形式。4.Web數(shù)據(jù)挖掘的主要應(yīng)用 目前,Web數(shù)據(jù)挖掘的研究重點已從理論轉(zhuǎn)向?qū)嶋H應(yīng)用。4.1Web數(shù)據(jù)挖掘的理論研究方向: ①動態(tài)更新;② Web知識庫維護(hù);③內(nèi)在機制研究;④專注多媒體挖掘,研發(fā)出高效算法;⑤
16、圖像、文本對應(yīng)的挖掘算法(結(jié)構(gòu)、半結(jié)構(gòu)下) ⑥搭建自組織網(wǎng)站時,對序列模式、關(guān)聯(lián)規(guī)則進(jìn)行細(xì)致研究。,4.2 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)中 對電子商務(wù)中的Web日志和訪問內(nèi)容進(jìn)行挖掘,可以針對不同的客戶提供個性化的產(chǎn)品、挽留老客戶、發(fā)現(xiàn)潛在的新客戶、改進(jìn)站點設(shè)計方便客戶瀏覽、向顧客推薦商品和引導(dǎo)客戶購買商品。4.3 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于搜索引擎中 利用Web數(shù)據(jù)挖掘技術(shù),提高Web檢索的速度和準(zhǔn)確率,更好的滿足
17、用戶的個性化需求,如:頁面文本自動分類提高檢索速度;對頁面的權(quán)威度進(jìn)行計算和排序,使用戶優(yōu)先看到權(quán)威度高的頁面;通過分析用戶歷史瀏覽信息發(fā)現(xiàn)用戶興趣偏好。4.4應(yīng)用于知識服務(wù)中 利用Web挖掘技術(shù),從Web頁面中獲取基本知識,元素(如:概念、概念間的語義關(guān)系,知識元、知識元間的關(guān)聯(lián)關(guān)系),并構(gòu)建面向特定領(lǐng)域的知識體系,重組Web頁面中的知識元素,提供符合人們認(rèn)知特點的知識服務(wù)。4.5 Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子政務(wù)中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社交網(wǎng)絡(luò)中的多媒體數(shù)據(jù)挖掘.pdf
- 多媒體數(shù)據(jù)挖掘中的跨數(shù)據(jù)域?qū)W習(xí).pdf
- WWW上基于內(nèi)容的多媒體數(shù)據(jù)挖掘.pdf
- 基于Web的多媒體數(shù)據(jù)挖掘的研究.pdf
- 基于web的多媒體數(shù)據(jù)挖掘的研究與設(shè)計.pdf
- 多媒體數(shù)據(jù)挖掘及其在地震素材管理系統(tǒng)中的應(yīng)用.pdf
- 論數(shù)字化圖書館中的多媒體數(shù)據(jù)挖掘技術(shù)
- 面向知識服務(wù)的多媒體數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究.pdf
- 基于數(shù)據(jù)挖掘的中小學(xué)多媒體教學(xué)績效評價研究.pdf
- 補充多媒體數(shù)據(jù)壓縮技術(shù)
- 基于多媒體空間數(shù)據(jù)庫的時變模式挖掘.pdf
- 多媒體數(shù)據(jù)管理系統(tǒng).pdf
- 基于信息重組思想的多媒體數(shù)據(jù)壓縮和多媒體數(shù)據(jù)安全技術(shù)研究.pdf
- 可視的多媒體數(shù)據(jù)語義標(biāo)注.pdf
- 中科多媒體教育資源數(shù)據(jù)庫
- 高速多媒體衛(wèi)星數(shù)據(jù)接收卡.pdf
- 多媒體數(shù)據(jù)庫課后習(xí)題答案
- 中科多媒體教育資源數(shù)據(jù)庫
- 多媒體數(shù)據(jù)庫的了解[文獻(xiàn)綜述]
- 網(wǎng)絡(luò)多媒體數(shù)據(jù)處理方法研究.pdf
評論
0/150
提交評論