

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著科學(xué)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)提供的豐富信息在助推社會(huì)產(chǎn)業(yè)部門升級(jí)的同時(shí)也帶來(lái)了一些問(wèn)題,如信息的急速增長(zhǎng)易產(chǎn)生大爆炸效應(yīng),造成“信息過(guò)載”。同時(shí),為了對(duì)互聯(lián)網(wǎng)用戶提供更加全面的信息資源,網(wǎng)站經(jīng)營(yíng)者和管理者不斷向Web站點(diǎn)中添加信息,這就使得Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)日益復(fù)雜化。由于向Web站點(diǎn)新添加的資源可能不符合用戶的真實(shí)需求,易造成用戶瀏覽Web站點(diǎn)時(shí)出現(xiàn)“資源迷向”。因此,如何從海量的數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的信息是我們面臨的問(wèn)題。所以,
2、出現(xiàn)了數(shù)據(jù)挖掘在Web站點(diǎn)分析中的應(yīng)用,即Web挖掘。
Web挖掘是一項(xiàng)綜合技術(shù),它涉及Web技術(shù)、數(shù)據(jù)挖掘、信息學(xué)、計(jì)算機(jī)語(yǔ)言學(xué)等多個(gè)領(lǐng)域。Web挖掘可以在很多方面發(fā)揮作用,如對(duì)搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁(yè)面,Web文檔分類,Web使用挖掘,智能查詢,建立Metaweb數(shù)據(jù)倉(cāng)庫(kù)等。Web使用挖掘就是從服務(wù)器日志中發(fā)現(xiàn)用戶行為特征和導(dǎo)航模式。本文系統(tǒng)闡述了數(shù)據(jù)挖掘、Web挖掘以及Web使用挖掘的整個(gè)流程,重點(diǎn)研究了Web
3、日志預(yù)處理過(guò)程、關(guān)聯(lián)規(guī)則挖掘模型和滑動(dòng)窗口推薦模型三方面內(nèi)容。
首先,Web日志預(yù)處理過(guò)程包括:數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)識(shí)別。經(jīng)過(guò)預(yù)處理階段,可以從用戶訪問(wèn)信息中去除大量無(wú)關(guān)的數(shù)據(jù),同時(shí)也對(duì)Internet上的用戶訪問(wèn)信息進(jìn)行結(jié)構(gòu)化處理,并將其以事務(wù)或會(huì)話的形式保存在關(guān)系數(shù)據(jù)庫(kù)中。
然后,對(duì)預(yù)處理后的數(shù)據(jù),本文采用加權(quán)關(guān)聯(lián)規(guī)則對(duì)其進(jìn)行挖掘。
經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法Apriori不僅能夠發(fā)
4、現(xiàn)Web訪問(wèn)頁(yè)面之間的相互聯(lián)系,而且對(duì)發(fā)現(xiàn)用戶偏好導(dǎo)航模式有重要作用。但是,將Apriori算法應(yīng)用于Web日志挖掘也有其主觀局限性。Apriori算法隱含的假設(shè)是所有頁(yè)面的重要性是相同的,它并沒有考慮到頁(yè)面之間的差異性,因此,使用該規(guī)則挖掘出來(lái)的數(shù)據(jù)中可能會(huì)遺漏掉某些用戶感興趣的頁(yè)面。
針對(duì)Apriori算法在Web日志挖掘應(yīng)用中存在的不足,本文引入“頁(yè)面權(quán)值”這一概念,它反映了用戶對(duì)頁(yè)面的真實(shí)喜好。根據(jù)頁(yè)面權(quán)值的定義,我們
5、綜合考慮用戶對(duì)頁(yè)面的瀏覽時(shí)間和訪問(wèn)頻次兩個(gè)因素,并在此基礎(chǔ)上提出了W-Aprio算法。該算法采用擴(kuò)展布爾矩陣的表示方式來(lái)描述事務(wù)數(shù)據(jù)庫(kù),這樣有助于事務(wù)數(shù)據(jù)庫(kù)的壓縮。同時(shí),權(quán)值的引入也有利于區(qū)分頁(yè)面之間的差異,有效地解決了挖掘過(guò)程中遺漏某些重要頁(yè)面的問(wèn)題。
最后,本文將挖掘得到的規(guī)則形成規(guī)則庫(kù),結(jié)合使用滑動(dòng)窗口技術(shù),設(shè)計(jì)實(shí)踐基于關(guān)聯(lián)規(guī)則挖掘的Web日志推薦模型。該模型不僅能夠有效解決“信息過(guò)載”和“資源迷向”等問(wèn)題。而且可以將用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于關(guān)聯(lián)規(guī)則挖掘的Web個(gè)性化推薦研究.pdf
- 基于Web日志挖掘的個(gè)性化推薦研究.pdf
- 基于Web日志挖掘的個(gè)性化推薦系統(tǒng)研究.pdf
- 基于web日志挖掘的個(gè)性化推薦系統(tǒng)模型研究與實(shí)現(xiàn).pdf
- 基于Web日志挖掘的個(gè)性化推薦系統(tǒng)的研究和實(shí)現(xiàn).pdf
- 基于Web日志挖掘的個(gè)性化推薦方法研究.pdf
- 基于WEB日志的個(gè)性化推薦系統(tǒng)研究.pdf
- 基于web日志的個(gè)性化推薦系統(tǒng)研究
- 基于Web日志的個(gè)性化推薦系統(tǒng)的研究.pdf
- 基于Web日志挖掘的個(gè)性化推薦原型系統(tǒng)研究與實(shí)現(xiàn).pdf
- 基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦.pdf
- 基于Web使用挖掘的個(gè)性化推薦系統(tǒng).pdf
- 基于web日志挖掘的個(gè)性化服務(wù)研究.pdf
- 基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化推薦的應(yīng)用研究.pdf
- 基于Web內(nèi)容和日志挖掘的個(gè)性化服務(wù)研究.pdf
- 基于Web挖掘的個(gè)性化推薦系統(tǒng)的研究.pdf
- 基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦算法研究.pdf
- 基于Web數(shù)據(jù)挖掘的個(gè)性化推薦系統(tǒng)研究.pdf
- 基于XML和關(guān)聯(lián)規(guī)則的Web日志挖掘研究.pdf
- Web日志挖掘在網(wǎng)站個(gè)性化推薦中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論