

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、為了解決網(wǎng)絡信息“爆炸”時代出現(xiàn)的諸多問題,元數(shù)據(jù)作為一種重要的應對方法和措施,已廣泛應用于信息檢索、信息集成及信息共享等服務中。毫無疑問,元數(shù)據(jù)自身質量的好壞決定了元數(shù)據(jù)應用服務的最終成敗。為了提高元數(shù)據(jù)的服務質量,學術界和產(chǎn)業(yè)界主要從以下幾個方面進行了大量的研究和探索。一是元數(shù)據(jù)質量相關標準的制定,建立統(tǒng)一的元數(shù)據(jù)標準可以有效地保證元數(shù)據(jù)的一致性和完整性,并實現(xiàn)規(guī)范性的交互操作,這一點已經(jīng)在研究工作者中達成廣泛的共識;二是元數(shù)據(jù)構建
2、及管理方法的改進與完善,元數(shù)據(jù)構建及管理方法的改進和完善是提高元數(shù)據(jù)質量的另一種途徑,目前,在元數(shù)據(jù)的模式發(fā)現(xiàn)、模式轉換、控制策略、管理機制等諸多方面都已經(jīng)開展了大量的研究工作;三是元數(shù)據(jù)質量評估的研究,學術界對此問題的討論集中在評估指標體系、評估方法及評估用例等幾方面。從目前的文獻和資料中我們發(fā)現(xiàn),現(xiàn)有的研究工作更多的從元數(shù)據(jù)創(chuàng)建者手動方式的角度出發(fā),考慮了創(chuàng)建工具的有效性和便利性,然而,從元數(shù)據(jù)的創(chuàng)建者和使用者兩方面考慮,這必將會引
3、起諸如以下問題:從創(chuàng)建者來看,面對大量形式多樣的數(shù)據(jù)集,元數(shù)據(jù)創(chuàng)建者需要花費一定的精力去了解數(shù)據(jù)集內容,直到對數(shù)據(jù)集的內容具有深入透徹的理解,這必將是一項繁瑣沉重的工作,此外,不同創(chuàng)建者理解上的差異,也會導致元數(shù)據(jù)理解上的歧義;從使用者來看,用戶也需要對預先定義好的元數(shù)據(jù)具備正確的認識,否則在創(chuàng)建者和使用者之間就會產(chǎn)生認知上的“鴻溝”,用戶自然就無法有效的查詢獲取需求信息。
因此,為了解決以上問題,構建高質量的元數(shù)據(jù)服務,
4、本文首先提出了一種基于語義標注構建元數(shù)據(jù)的方法,利用數(shù)據(jù)集中已有的語義標注信息自動構建生成元數(shù)據(jù)。該方法在考慮元數(shù)據(jù)構建效率的同時,充分借鑒了知識共享的理念,探索了利用語義標注信息傳遞出來的多視角信息消除主觀認知上“鴻溝”的可行性,并對不同結構視圖下的元數(shù)據(jù)識別策略進行了針對性研究。在此基礎上,本文進一步研究了元數(shù)據(jù)模式語義異構的問題,提出了一種支持元數(shù)據(jù)模式語義集成的模式匹配方法。為了驗證方法的適用性、評估元數(shù)據(jù)的質量,本文又提出了一
5、種可以有效提高查準率,抑制查全率低引起目標缺失的元數(shù)據(jù)查詢方法??紤]到檔案信息資源自身特有的使用價值及其在基礎信息資源中重要的地位[1],本文在實驗設計的出發(fā)點以及測試數(shù)據(jù)集的選擇上,都將目標定位在了這個領域之中。具體來講,本文各項研究成果主要包含以下幾個方面:
(1)在分析基于模板和基于機器學習兩類主要元數(shù)據(jù)抽取方法的基礎上,提出了一個自動構建元數(shù)據(jù)的方法(SAMC)。該方法能克服上述兩類方法的缺點與不足,不但能充分地利
6、用現(xiàn)有語義標注信息對元數(shù)據(jù)進行有效的識別和定位,而且還有機地將統(tǒng)計學理論、信息的結構化特征、視覺布局特征等融合在一起,為SAMC的性能提供了有力的保證,因而,該方法構建出的元數(shù)據(jù)具有更高的精確度與更強的信息表達能力,能夠很好地滿足對構建高質量元數(shù)據(jù)的要求。
(2)提出了不同布局模式下識別元數(shù)據(jù)的算法。為了提高本方法中生成元數(shù)據(jù)的可行性,本文考慮了語義標注信息結構視圖差異的情況,重點研究了在總分、遞進、綜合分布等序列模式下,
7、語義標注信息所表現(xiàn)出來的差異特征,針對性的設計了相應的元數(shù)據(jù)識別算法。算法中有效地利用了樹型數(shù)據(jù)結構的層次、線性數(shù)據(jù)結構的次序以及信息分布的頻繁程度等特征,從而使元數(shù)據(jù)識別的效果以及性能等方面都有了很好的表現(xiàn)。
(3)提出了能有效支持元數(shù)據(jù)屬性級語義集成的模式匹配方法(PISMatching)。與相關研究相比,本研究面臨的是一個以豐富元數(shù)據(jù)模式語義信息為目的、以多數(shù)據(jù)源元數(shù)據(jù)模式合并為任務的新問題。本文嘗試了將本體、敘詞表
8、和概念相似度計算結合使用,實現(xiàn)了整合各自優(yōu)點的目的,在實現(xiàn)難易、復雜度、語義強度等方面都擁有更好的性能。本體的引入為匹配方法準確性的提高提供了強有力的領域上下文支持,基于關聯(lián)信息聯(lián)想和概率統(tǒng)計的概念相似度方法也為模式匹配提供了一個新的度量標準,該度量標準能夠發(fā)現(xiàn)積極相關的屬性以得到潛在的屬性組,也能將同義關系的屬性組保留下來。在PISMatching具體設計的表現(xiàn)力上,本文更注重匹配程度的高低排序而不是差距值的計算,這樣對實際應用更具意
9、義;更注重對匹配可利用信息的捕獲,而減少對特定匹配模式的依賴,這樣使研究成果具有更大的靈活性、擴展性和更廣泛的利用價值。(4)提出了利用域上下文信息度量相關性的元數(shù)據(jù)查詢方法(MFCQuery)。與傳統(tǒng)元數(shù)據(jù)查詢方式相比,為了能在查準率、查全率上有進一步地提高,MFCOuery主要從兩個方面進行了擴展:一是利用向量空間模型(Vector Space Model)在用戶查詢信息和元數(shù)據(jù)域上下文信息之間建立相關性計算矩陣,利用域上下文信息與
10、用戶查詢信息相關性的高低來判斷用戶的真實查詢意圖,用以提高檢索結果的查全率;另一個方面考慮到部分查詢者可能由于缺少足夠的背景知識,而無法提供必要的元數(shù)據(jù)域查詢,我們將為其匹配最相關的目標域限制,以提高檢索結果的查準率。該方法在保證傳統(tǒng)查詢方式下高精度特點的同時,能夠使檢索結果的查全率得到進一步地提升。
(5)細化了元數(shù)據(jù)的評估標準。從整個論文研究的出發(fā)點講,論文全部研究工作的主要目的是為了有效地提高元數(shù)據(jù)的質量,使其能在具
11、體應用領域發(fā)揮更大的作用。為此,本文選擇了檔案信息資源作為實驗中的目標應用領域,而對于元數(shù)據(jù)最終質量的評估,作者考慮到并不能單純從信息技術經(jīng)典的評估指標查全率和查準率來體現(xiàn),所以本文嘗試了細化各項評估指標,對特征不同的評估對象,采用了分化的評估比較的辦法,這樣可以在更細致的層面上反映出不同方法在元數(shù)據(jù)質量上的影響。
總之,本論文通過規(guī)則、統(tǒng)計、概率等方法分別從上述各個方面對元數(shù)據(jù)相關技術進行了深入研究。解決了元數(shù)據(jù)構建過程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 海洋文獻元數(shù)據(jù)的語義標注技術研究.pdf
- 漢語框架語義角色的自動標注技術研究.pdf
- 圖像的自動語義標注技術研究與實現(xiàn).pdf
- 面向文本的自動語義標注技術研究與實現(xiàn).pdf
- Deep Web數(shù)據(jù)抽取和語義標注技術研究.pdf
- 運動捕獲數(shù)據(jù)的語義標注關鍵技術研究.pdf
- 面向Deep Web的數(shù)據(jù)抽取與語義標注技術研究.pdf
- 基于本體的網(wǎng)格元數(shù)據(jù)模型及其相關技術研究.pdf
- 基于本體的自動語義標注方法研究.pdf
- 基于框架語義標注的Web信息抽取技術研究.pdf
- 基于依存樹的中文語義角色標注技術研究.pdf
- 圖像自動語義標注研究.pdf
- 自動語義標注方法研究.pdf
- 基于語義標注的知識抽取相關技術的國外進展研究
- Deep Web數(shù)據(jù)源發(fā)現(xiàn)和語義標注技術研究.pdf
- 動態(tài)Web頁語義標注技術研究.pdf
- 基于本體的圖像語義的自動標注研究.pdf
- 基于內容的圖像數(shù)據(jù)庫語義分類相關技術研究.pdf
- 基于區(qū)域的圖像語義自動標注方法研究.pdf
- 基于區(qū)域的圖像自動語義標注算法研究.pdf
評論
0/150
提交評論