語義Web使用挖掘若干關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩150頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著Internet的快速發(fā)展,Web上承載的數(shù)據(jù)正以令人難以置信的速度迅速膨脹。Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)幫助用戶從海量的Web數(shù)據(jù)中迅速發(fā)現(xiàn)使用模式的過程。由于目前Web上的數(shù)據(jù)大部分是非結(jié)構(gòu)或半結(jié)構(gòu)化的,作為智能程序的軟件代理并不能理解和處理這些信息,因此Web使用挖掘的結(jié)果往往不盡如人意。語義Web作為當(dāng)前Web的一種擴展,其中信息被賦予了良好定義的語義,有助于計算機自動地處理Web使用信息,能有效改善Web使用挖掘的結(jié)果

2、,因此語義Web使用挖掘就成為當(dāng)前Web挖掘的前沿研究領(lǐng)域。 語義Web使用挖掘一方面從現(xiàn)有Web數(shù)據(jù)中抽取使用語義促進(jìn)語義Web的構(gòu)建,另一方面也利用語義Web數(shù)據(jù)有效提高了傳統(tǒng)Web使用挖掘的質(zhì)量和效率。本文回顧了語義Web使用挖掘研究的發(fā)展歷程和各個階段所取得的重要成果,闡述了它對促進(jìn)Web技術(shù)發(fā)展的重要意義。系統(tǒng)地總結(jié)了語義Web使用挖掘的過程和任務(wù),并指出了當(dāng)前研究中存在的主要問題。本文從語義使用知識(半)自動構(gòu)建和挖

3、掘語義Web使用等角度出發(fā),針對日志本體學(xué)習(xí)和日志本體挖掘所面臨的幾個關(guān)鍵問題進(jìn)行了深入研究,并取得了如下創(chuàng)新性成果: (1)系統(tǒng)地提出了日志本體的分層體系結(jié)構(gòu)。以事件為核心概念,采用自頂向下的分析方法,根據(jù)用戶訪問行為的語義從抽象到具體依次完整地給出了核心日志本體、應(yīng)用日志本體和語義日志的形式化定義。這種分層體系架構(gòu)彌補了相關(guān)研究對日志本體定義過于單調(diào)的缺陷,有利于不同層次上使用知識的語義描述,能提高后續(xù)語義Web使用挖掘的質(zhì)

4、量和效率。 (2)提出了一種結(jié)合Web內(nèi)容和使用挖掘?qū)W習(xí)應(yīng)用日志本體的方法。該方法采用分步學(xué)習(xí)的思想,通過“原子應(yīng)用事件抽取-原子應(yīng)用事件分類關(guān)系學(xué)習(xí)-復(fù)合應(yīng)用事件挖掘-應(yīng)用事件非分類領(lǐng)域關(guān)系學(xué)習(xí)”依次確定應(yīng)用日志本體的主要構(gòu)成元素。在日志本體頂層架構(gòu)的基礎(chǔ)上,根據(jù)用戶具體訪問目的將用戶請求映射為內(nèi)容應(yīng)用事件或服務(wù)應(yīng)用事件;通過基于群體智能的Web頁面聚類和用戶訪問路徑上請求參數(shù)的語義分類,分別發(fā)現(xiàn)內(nèi)容應(yīng)用事件及服務(wù)應(yīng)用事件的分

5、類關(guān)系;以事件整分關(guān)系為基礎(chǔ)構(gòu)建事務(wù)空間,通過層次關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)應(yīng)用事件的非分類領(lǐng)域關(guān)系。實驗表明,在Web使用領(lǐng)域內(nèi),該方法學(xué)習(xí)生成的應(yīng)用日志本體在準(zhǔn)確率和召回率上都明顯優(yōu)于目前主流本體學(xué)習(xí)工具生成的結(jié)果。 (3)給出了DatalogSHIQ異構(gòu)日志知識系統(tǒng),并在此基礎(chǔ)上提出了一種頻繁Web訪問模式發(fā)現(xiàn)的方法。DatalogSHIQ擴展了AL-log,支持表述能力更豐富的描述邏輯語言和異構(gòu)Datalog規(guī)則,并降低了異構(gòu)系統(tǒng)

6、的安全性約束。在此基礎(chǔ)上,引入應(yīng)用訪問規(guī)則集表示W(wǎng)eb使用信息動態(tài)變化的語義,彌補了日志本體在表示動態(tài)訪問知識上的不足。定義DatalogSHIQ之上的原子完善操作,提高了候選Web訪問模式的表達(dá)能力。提出一種基于觀察覆蓋測試的ILP方法,能有效地從候選集中發(fā)現(xiàn)頻繁Web訪問模式,與已有研究相比,該方法增加了對復(fù)雜概念和獨立角色的推理能力,發(fā)現(xiàn)的頻繁Web訪問模式具有更豐富的語義知識,能滿足站點系統(tǒng)實際應(yīng)用的需要。 (4)提出了

7、一種結(jié)合DL-safe規(guī)則的頻繁Web訪問模式及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法。在日志本體之上給出了異構(gòu)規(guī)則語言DL-safeL以描述應(yīng)用訪問規(guī)則,增加了對選言規(guī)則的支持?;趖rie樹形結(jié)構(gòu)提出DL-safeL之上的節(jié)點擴展算法,無需事先生成候選模式,可以直接通過計算容許謂詞集而生成頻繁Web訪問模式和關(guān)聯(lián)規(guī)則;巧妙地利用選言數(shù)據(jù)庫中被證明的優(yōu)化原則,通過語義等價模式以及模式分類冗余檢查有效避免了過多邏輯推理所帶來的算法性能瓶頸。實驗結(jié)果表明,相比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論