基于頻繁模式樹的XML數(shù)據(jù)挖掘.pdf_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的但又潛在有用的知識的半自動(dòng)化的方法,它是解決“數(shù)據(jù)豐富、信息貧乏”的有效方法。 XML是由SGML發(fā)展而來的一種簡單、靈活的文本格式。它已經(jīng)成為Internet上數(shù)據(jù)描述和交換的標(biāo)準(zhǔn),越來越多的數(shù)據(jù)以XML文檔進(jìn)行存儲,在這些數(shù)據(jù)中隱含著大量的知識信息與各類模式,因此,人們迫切需要一些有效的方法來從中提取出一些潛在的、有價(jià)值的知識,這就是

2、XML挖掘。 但是,作為一種樹形的半結(jié)構(gòu)化數(shù)據(jù),XML非常復(fù)雜且具有異構(gòu)性,它不能輕易地被映射到關(guān)系模型,這樣,傳統(tǒng)的面向關(guān)系型數(shù)據(jù)的挖掘方法如Apriori算法等,并不能直接應(yīng)用到XML挖掘上。因此,研究一種有效的針對XML的數(shù)據(jù)挖掘方法成為數(shù)據(jù)挖掘領(lǐng)域和XML技術(shù)領(lǐng)域的一項(xiàng)重要課題。 本文首先介紹了傳統(tǒng)的數(shù)據(jù)挖掘基本理論、XML的基本理論、XML的特點(diǎn)以及XML有關(guān)技術(shù)規(guī)范。 其次介紹了頻繁子樹挖掘的相關(guān)概念

3、和現(xiàn)有的一些頻繁子樹挖掘算法。 接著在分析了現(xiàn)有頻繁模式樹挖掘算法FREOT和Freqttree的基礎(chǔ)上,提出了一種新的頻繁模式樹挖掘算法-PDOM算法。PDOM算法采用最右路徑擴(kuò)展的思想,然后利用遞推式的候選節(jié)點(diǎn)集更新技術(shù)來壓縮候選節(jié)點(diǎn)集,使產(chǎn)生的候選模式數(shù)量大大減少,并且在計(jì)算候選模式樹的支持?jǐn)?shù)時(shí),采用增量式技術(shù),提高算法效率。通過定理證明了PDOM算法的正確性,并對其進(jìn)行了實(shí)驗(yàn)分析。 最后,考慮到XML的樹形結(jié)構(gòu),

4、提出了基于頻繁模式樹的XML文檔分類算法-BFPC算法。BFPC算法基于XML內(nèi)容和XML結(jié)構(gòu)兩方面。它首先利用tf*idf權(quán)值法提取XML文件中非結(jié)構(gòu)的信息即XML內(nèi)容的特征代表,接著利用PDOM算法提取各個(gè)類別的頻繁模式樹,作為該類別的結(jié)構(gòu)特征,并賦予每個(gè)模式樹一定的權(quán)值。同時(shí),本文還提出了一種模式樹匹配算法-PMatch,通過最右匹配集來實(shí)現(xiàn)模式樹的匹配。最后測試階段,利用PMatch算法以及關(guān)鍵字匹配,計(jì)算測試文檔的得分,判斷該

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論