Web挖掘技術(shù)及其應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩52頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中自動(dòng)地提取出有價(jià)值的知識(shí)和信息。數(shù)據(jù)挖掘已成為數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)方面的重要的研究課題。當(dāng)前,WorldWideWeb正向應(yīng)用的深度和廣度方面迅速發(fā)展。將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web上,解決WWW中遇到的一些問題,從而形成了Web數(shù)據(jù)挖掘(Webmining)這樣一個(gè)新的研究方向。 Web數(shù)據(jù)挖掘是指針對(duì)包括Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息在內(nèi)的各種Web數(shù)據(jù),應(yīng)用傳統(tǒng)數(shù)據(jù)

2、挖掘方法以發(fā)現(xiàn)有用的知識(shí),幫助人們從WWW中提取知識(shí),改進(jìn)站點(diǎn)設(shè)計(jì),更好地開展電子商務(wù)。 該文的工作是在“Web訪問信息挖掘軟件包”的開發(fā)過程中,對(duì)WWW上用戶訪問信息的挖掘技術(shù)進(jìn)行了較為深入的研究,包括數(shù)據(jù)清洗,事務(wù)識(shí)別,Web播出中的聚類算法,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等工作,并將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于基于Cable的WEB頁(yè)面廣播中。 該文的主要工作: 1.通過數(shù)據(jù)預(yù)處理技術(shù),將Internet上非結(jié)構(gòu)化或半結(jié)構(gòu)化的信

3、息組織成邏輯單元,以表示事務(wù)或用戶會(huì)話,并將所有事務(wù)組成一個(gè)自定義的事務(wù)數(shù)據(jù)庫(kù),這樣就可以利用對(duì)傳統(tǒng)數(shù)據(jù)挖掘的方法(如關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)等)對(duì)Web數(shù)據(jù)進(jìn)行挖掘;另外,采用數(shù)據(jù)清洗技術(shù)從用戶訪問信息中去除大量無用或與當(dāng)前挖掘無關(guān)的數(shù)據(jù),有效地提高了挖掘效率。 2.將傳統(tǒng)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù)引入Web數(shù)據(jù)挖掘,求高頻物品集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的核心,也是計(jì)算量最大的部分,該文采用了一種快速算法Apriori,并針對(duì)在W

4、eb應(yīng)用的特點(diǎn)進(jìn)行了改進(jìn),有效地提高了求高頻站點(diǎn)集的效率。通過分析Web訪問信息,可以發(fā)現(xiàn)用戶訪問站點(diǎn)之間的一些關(guān)聯(lián)規(guī)則,以及站點(diǎn)中頁(yè)面之間的一些訪問規(guī)則。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)可以在網(wǎng)站構(gòu)造、Web廣播等活動(dòng)中得到廣泛應(yīng)用。 3.寬帶網(wǎng)進(jìn)行Web廣播時(shí),其播出的內(nèi)容是一個(gè)大的Web頁(yè)面集合。針對(duì)如何得到這個(gè)Web頁(yè)面集合,以及如何組織這個(gè)Web頁(yè)面集合以利于用戶瀏覽這兩個(gè)問題,該文提出一種新的聚類方法WebClustering,通過聚類

5、得出聚類中心和聚類集,通過關(guān)聯(lián)規(guī)則算法得出可信度,據(jù)此構(gòu)造出一個(gè)有價(jià)值的Web頁(yè)面播出集合;并且根據(jù)挖掘到的用戶訪問興趣,通過形成索引頁(yè)面集來幫助用戶訪問這個(gè)Web頁(yè)面集合。這種方法較好地解決了Web廣播中的內(nèi)容選擇及頁(yè)面組織問題,取得了較為理想的效果。 4.論述了Web訪問信息挖掘的一般過程,將傳統(tǒng)數(shù)據(jù)挖掘過程中的各種關(guān)鍵技術(shù),如數(shù)據(jù)預(yù)處理,聚類算法,關(guān)聯(lián)規(guī)則、序列模式發(fā)現(xiàn)等引入到對(duì)于Web信息的挖掘活動(dòng)中,并通過一系列的實(shí)驗(yàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論