基于XML和關(guān)聯(lián)規(guī)則的Web日志挖掘研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁數(shù)：77 大?。?.46MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于XML和關(guān)聯(lián)規(guī)則的Web日志挖掘研究.pdf_第1頁

已閱讀1頁，還剩76頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的迅速發(fā)展和Internet的普及，Web日志資源越來越豐富。如何充分利用這些資源，從中提取出用戶所感興趣的信息數(shù)據(jù)，是當(dāng)前計(jì)算機(jī)領(lǐng)域的一大挑戰(zhàn)。Web日志挖掘就是利用數(shù)據(jù)挖掘的思想對(duì)經(jīng)過處理的服務(wù)器日志進(jìn)行挖掘，其研究目的在于發(fā)現(xiàn)用戶瀏覽網(wǎng)站的行為規(guī)律，改善站點(diǎn)的結(jié)構(gòu)和頁面間超鏈接結(jié)構(gòu)，提高站點(diǎn)服務(wù)質(zhì)量以及提供在電子商務(wù)中的決策支持。本文主要從以下五個(gè)方面對(duì)Web日志挖掘進(jìn)行了系統(tǒng)研究。第一，對(duì)Web挖掘、Web

2、日志挖掘的定義、分類和過程進(jìn)行了概述，闡述了本文的研究背景、Web日志挖掘的研究現(xiàn)狀和面臨的問題；第二，介紹了XML技術(shù)及其在Web日志挖掘中的應(yīng)用；第三，結(jié)合XML的優(yōu)勢(shì)和Web日志數(shù)據(jù)的半結(jié)構(gòu)化特點(diǎn)，提出了一種基于XML文檔存儲(chǔ)的Web日志挖掘系統(tǒng)模型，并具體地分析了Web日志挖掘預(yù)處理過程；第四，詳細(xì)介紹了XML模式與關(guān)系模式映射方法，并用代碼具體實(shí)現(xiàn)了其中的一種XML格式的文檔在關(guān)系數(shù)據(jù)庫中的存儲(chǔ)方法；第五，對(duì)關(guān)聯(lián)規(guī)則挖掘理論特

3、別是關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了研究。關(guān)聯(lián)規(guī)則挖掘算法中，很多算法都基于Apnori算法進(jìn)行計(jì)算。本文對(duì)Apriori算法進(jìn)行了分析研究，針對(duì)該算法的不足提出了一種優(yōu)化改進(jìn)算法Apriori_SQLBit，從三個(gè)方面考慮對(duì)算法進(jìn)行改進(jìn)：(1)根據(jù)用戶瀏覽頁面的時(shí)間，構(gòu)建了用戶瀏覽興趣度權(quán)值。在產(chǎn)生頻繁項(xiàng)集時(shí)，采用了加權(quán)的支持度和可信度，這樣挖掘出的關(guān)聯(lián)規(guī)則將更符合用戶興趣；(2)降低候選項(xiàng)集中Gk候選項(xiàng)的數(shù)量。利用頻繁(k-1)-項(xiàng)

4、集Lk-1產(chǎn)生Gk之前先對(duì)Lk-1進(jìn)行一次裁剪，從而減少候選項(xiàng)集，裁剪的依據(jù)是，在Lk-1中，如果某子項(xiàng)的加權(quán)支持度小于最小加權(quán)支持度，則該項(xiàng)不可能是頻繁k-項(xiàng)集Lk的項(xiàng)；(3)采用位圖權(quán)值格式來存儲(chǔ)事務(wù)數(shù)據(jù)項(xiàng)集，能方便地進(jìn)行支持度的計(jì)算。為了驗(yàn)證改進(jìn)的算法是行之有效的，本文選擇了兩個(gè)數(shù)據(jù)庫作為試驗(yàn)：酷秀網(wǎng)(http://www.kuxiu.com)的用戶訪問日志和浙江理工大學(xué)校慶網(wǎng)(http://xq110.zstu.edu

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于XML和關(guān)聯(lián)規(guī)則的Web日志挖掘研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于XML和關(guān)聯(lián)規(guī)則的Web日志挖掘研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載