數(shù)據(jù)空間中數(shù)據(jù)集成若干關鍵問題研究.pdf_第1頁
已閱讀1頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,隨著數(shù)字化技術的快速發(fā)展,數(shù)據(jù)量以驚人的趨勢迅猛增長,數(shù)據(jù)顯現(xiàn)出多樣化的改變,網(wǎng)絡技術的日新月異也使得原本相隔萬里的數(shù)據(jù)關聯(lián)越來越緊密。傳統(tǒng)的數(shù)據(jù)管理技術在過去的幾十年中為數(shù)據(jù)管理做出了極大的貢獻,但由于數(shù)據(jù)新特點的出現(xiàn),使得傳統(tǒng)的數(shù)據(jù)管理技術在面對日益復雜多變的數(shù)據(jù)時顯得捉襟見肘。在這種情況下,人們試圖尋求一種全新的數(shù)據(jù)管理技術以滿足日漸豐富的數(shù)據(jù)管理需求——數(shù)據(jù)空間(dataspace)。
  數(shù)據(jù)空間是一個新興的研究

2、領域,許多關鍵技術還有待于深入研究。本文著重研究了數(shù)據(jù)空間中的數(shù)據(jù)集成若干關鍵問題。數(shù)據(jù)集成是為了解決異構數(shù)據(jù)、分布式數(shù)據(jù)的管理與共享而提出的,數(shù)據(jù)空間在本質上也是為了解決這個問題,但集成對象、集成方法等與傳統(tǒng)數(shù)據(jù)集成技術有很大區(qū)別。數(shù)據(jù)空間的數(shù)據(jù)集成根據(jù)包裝器提取數(shù)據(jù)源的數(shù)據(jù)信息。首先,需要將數(shù)據(jù)信息與數(shù)據(jù)空間的主體進行相關度評估,通過相關度決定是否將該數(shù)據(jù)信息存儲到數(shù)據(jù)空間中;其次,由于數(shù)據(jù)空間不僅存儲數(shù)據(jù)信息,還存儲數(shù)據(jù)間的關系信

3、息,因此數(shù)據(jù)空間集成需要對相關度較高的數(shù)據(jù)信息進行關聯(lián)關系的發(fā)現(xiàn)和提取;最后,通過匹配數(shù)據(jù)空間的模式確定數(shù)據(jù)所屬的模式,然后將滿足相關度的數(shù)據(jù)信息及其關系信息存儲到數(shù)據(jù)空間中。因此,數(shù)據(jù)空間中數(shù)據(jù)集成的關鍵問題具體有相關度評估、數(shù)據(jù)關系發(fā)現(xiàn)和模式的建立等。由于人的因素對數(shù)據(jù)空間起到了舉足輕重的作用,所以在這三個數(shù)據(jù)空間集成的研究問題中加入人為因素的存在,會使得本文的研究更具實際意義。
  根據(jù)以上分析,本文對下列幾個方面的工作進行

4、了深入的研究:
  1)提出了基于操作行為的相關度算法。首先,本文對使用者操作行為的采集進行了深入的研究,通過分析使用者的操作行為,提出了操作行為采集算法用于采集使用者的操作行為信息,并通過Vertical模型將操作行為信息形成信息集;其次,研究了核心詞集的提取,給出了操作行為間關聯(lián)程度的評價方法及訪問信息間關聯(lián)程度的評價方法,通過將操作行為的關聯(lián)、訪問信息的關聯(lián)及核心詞頻率進行結合,提出了基于CTFS的核心詞權重評價方法用于提取

5、核心詞集;再次,在提取核心詞集研究的基礎上,提出了基于路徑長度、發(fā)生頻度及語義內容的PFC數(shù)據(jù)相關度算法;最后,在PFC算法的基礎上,本文還給出了數(shù)據(jù)質量的評價算法,用于數(shù)據(jù)空間的查詢排序等服務。實驗對核心詞的提取、數(shù)據(jù)相關度及數(shù)據(jù)質量進行了檢驗分析,實驗結果證明,本文提出的算法具有很強的實用性及有效性。
  2)提出了基于主體特征的關系發(fā)現(xiàn)方法。數(shù)據(jù)空間中數(shù)據(jù)的關聯(lián)分為顯性關聯(lián)和隱性關聯(lián),本文對顯性關聯(lián)的發(fā)現(xiàn)進行了研究,并通過在

6、顯性關聯(lián)的基礎上引入主體特征研究了隱性關聯(lián)的發(fā)現(xiàn)。在顯性關聯(lián)研究部分,首先,通過5-ary對數(shù)據(jù)原子進行了描述,給出了數(shù)據(jù)原子屬性重要程度的度量方法用于提取重要的屬性作為核心詞;其次,提出了CWD模型,并定義了具有同一核心詞的數(shù)據(jù)原子集作為提取數(shù)據(jù)原子關聯(lián)的數(shù)據(jù)集;最后,定義了群體類別及其關聯(lián),并結合具有同一核心詞的數(shù)據(jù)原子集給出了基于數(shù)據(jù)原子集、群體類別及群體類別關聯(lián)(DCR)的顯性關聯(lián)發(fā)現(xiàn)方法。在隱性關聯(lián)研究部分,本文給出了基于主體

7、特征的支持度和可信度的進一步定義,使支持度和可信度被主體特征所影響;然后,在顯性關聯(lián)的基礎上,通過結合基于主體特征的支持度和可信度生成的頻繁項集,給出了數(shù)據(jù)原子間隱性關聯(lián)的發(fā)現(xiàn)方法。實驗部分驗證了屬性的變化、群體類別關聯(lián)的變化及基于主體特征的頻繁項集對數(shù)據(jù)原子關聯(lián)的影響。
  3)提出了一種基于信息差異的數(shù)據(jù)空間模式提取方法,該方法可幫助用戶快速、準確地了解數(shù)據(jù)空間的結構。首先,本文提出使用PageRank網(wǎng)頁排序算法計算節(jié)點的重

8、要性,并在分析了模式節(jié)點在模式圖中的連通性以及在數(shù)據(jù)圖中的分布頻度對節(jié)點重要性影響的基礎上,提出了選取首要節(jié)點的方法;其次,通過對節(jié)點產生的信息改變量差異ICD進行計算和分析,提出了基于信息差異的偏好值,該偏好值可用于提取模式的候選節(jié)點集;再次,通過分析數(shù)據(jù)空間模式分塊的特點,將模式分塊與社團構建結合起來,使用基于邊介數(shù)的模式分塊算法SPIP算法,對模式圖中的節(jié)點進行分塊,并使用模塊度函數(shù)來度量分塊的質量;最后,給出了完整的模式提取流程

9、。實驗首先比較了本文的分塊算法與經(jīng)典的貪婪分塊算法,證明了本文提出的方法在效率及準確度上均優(yōu)于貪婪分塊算法;實驗的另一部分比較了不使用模式與使用模式的三種情況下的查詢效率,結果證明,使用模式可提高查詢效率,減少查詢消耗。
  綜上所述,本文對數(shù)據(jù)空間集成中數(shù)據(jù)相關度、關聯(lián)關系發(fā)現(xiàn)及模式提取進行了深入的研究。對于數(shù)據(jù)與主體的相關度,本文通過對使用者操作行為的分析研究給出了數(shù)據(jù)的相關度算法PFC算法;對于關系發(fā)現(xiàn),本文給出了基于DCR

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論