XML關鍵字過濾技術.pdf_第1頁
已閱讀1頁,還剩125頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、XML是網絡數據存儲和交換的一種重要標準。在RSS等新型網絡應用中,使用XML作為數據表示語言,用戶通過關鍵字來表達查詢需求,應用系統(tǒng)獲取符合用戶查詢的XML數據片段,作為結果返回給用戶。然而網絡上的數據日益膨脹,如何從海量的數據流中,過濾有價值的信息片段,不僅具有研究價值,而且具有重要的應用價值。
   本文從確定XML、概率XML兩個方面,重點研究了基于SLCA(Smallest Low-est Common Ancesto

2、r)關鍵字過濾的效率問題和模型問題。在確定XML環(huán)境下,以往針對靜態(tài)XML數據建立中心索引進行的關鍵字檢索不適用于XML關鍵字過濾。針對過濾場景下XML數據的特點構造一遍掃描的算法有效實現關鍵字檢索是本文的研究內容之一。本文使用MapReduce分布式計算技術,解決數據膨脹導致的關鍵字過濾的效率問題。對于概率XML,以往的研究關注于IND(independent)和MUX(mutuallyexclusive)關系的探討,忽略了兄弟結點間

3、存在的其他依賴關系。對具有廣泛兄弟結點依賴關系的概率XML的建模和關鍵字過濾也是本文的研究內容之一。
   本文的主要貢獻有:
   ·給出概率XML中SLCA結點的定義。定義孩子結點傳遞給父親結點的信息tab,給出了tab信息上的點積、加法、笛卡爾積運算,實現概率XML模型PrXML{ind,mux}租PrXML{exp,ind,mux)中基于SLCA的關鍵字過濾。較同類模型PrXML{ind,mux}上的關鍵字檢索,

4、本文使用的方法效率更高。
   ·構建基于貝葉斯網的概率XML模型PrXML-BN。定義從概率XML文檔到貝葉斯網的映射方法,將SLCA語義引入貝葉斯網,完成基于SLCA的概率XML關鍵字過濾。采用圖結點約減和結果緩存的方法,提高系統(tǒng)過濾效率。
   ·針對確定XML關鍵字過濾問題,提出了一種高效的SLCA計算服務。它不需要事先構建索引,不依賴于任何結點編碼方式,單遍掃描數據就可以得到SLCA結點,避免了以往SLCA檢索

5、方法冗余的中間結果,具有較高的關鍵字過濾效率。
   ·用分布式系統(tǒng)解決大數據量確定XML關鍵字過濾的效率問題。利用Hadoop平臺,將任務的分解轉化為數據的分解,解決XML關鍵字檢索的大數據量問題。為了避免Hadoop平臺將結構緊密的XML數據任意透明劃分,本文給出大型原生XML文檔的拆分策略及一整套XML數據的分布式計算方法。
   本文對過濾場景下XML的關鍵字過濾技術進行了系統(tǒng)的研究,定義概率XML中的SLCA結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論