基于語(yǔ)義標(biāo)注的元數(shù)據(jù)自動(dòng)構(gòu)建及其相關(guān)技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：131 大?。?.42MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于語(yǔ)義標(biāo)注的元數(shù)據(jù)自動(dòng)構(gòu)建及其相關(guān)技術(shù)研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩130頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、為了解決網(wǎng)絡(luò)信息“爆炸”時(shí)代出現(xiàn)的諸多問(wèn)題，元數(shù)據(jù)作為一種重要的應(yīng)對(duì)方法和措施，已廣泛應(yīng)用于信息檢索、信息集成及信息共享等服務(wù)中。毫無(wú)疑問(wèn)，元數(shù)據(jù)自身質(zhì)量的好壞決定了元數(shù)據(jù)應(yīng)用服務(wù)的最終成敗。為了提高元數(shù)據(jù)的服務(wù)質(zhì)量，學(xué)術(shù)界和產(chǎn)業(yè)界主要從以下幾個(gè)方面進(jìn)行了大量的研究和探索。一是元數(shù)據(jù)質(zhì)量相關(guān)標(biāo)準(zhǔn)的制定，建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)可以有效地保證元數(shù)據(jù)的一致性和完整性，并實(shí)現(xiàn)規(guī)范性的交互操作，這一點(diǎn)已經(jīng)在研究工作者中達(dá)成廣泛的共識(shí)；二是元數(shù)據(jù)構(gòu)建

2、及管理方法的改進(jìn)與完善，元數(shù)據(jù)構(gòu)建及管理方法的改進(jìn)和完善是提高元數(shù)據(jù)質(zhì)量的另一種途徑，目前，在元數(shù)據(jù)的模式發(fā)現(xiàn)、模式轉(zhuǎn)換、控制策略、管理機(jī)制等諸多方面都已經(jīng)開展了大量的研究工作；三是元數(shù)據(jù)質(zhì)量評(píng)估的研究，學(xué)術(shù)界對(duì)此問(wèn)題的討論集中在評(píng)估指標(biāo)體系、評(píng)估方法及評(píng)估用例等幾方面。從目前的文獻(xiàn)和資料中我們發(fā)現(xiàn)，現(xiàn)有的研究工作更多的從元數(shù)據(jù)創(chuàng)建者手動(dòng)方式的角度出發(fā)，考慮了創(chuàng)建工具的有效性和便利性，然而，從元數(shù)據(jù)的創(chuàng)建者和使用者兩方面考慮，這必將會(huì)引

3、起諸如以下問(wèn)題：從創(chuàng)建者來(lái)看，面對(duì)大量形式多樣的數(shù)據(jù)集，元數(shù)據(jù)創(chuàng)建者需要花費(fèi)一定的精力去了解數(shù)據(jù)集內(nèi)容，直到對(duì)數(shù)據(jù)集的內(nèi)容具有深入透徹的理解，這必將是一項(xiàng)繁瑣沉重的工作，此外，不同創(chuàng)建者理解上的差異，也會(huì)導(dǎo)致元數(shù)據(jù)理解上的歧義；從使用者來(lái)看，用戶也需要對(duì)預(yù)先定義好的元數(shù)據(jù)具備正確的認(rèn)識(shí)，否則在創(chuàng)建者和使用者之間就會(huì)產(chǎn)生認(rèn)知上的“鴻溝”，用戶自然就無(wú)法有效的查詢獲取需求信息。
　　因此，為了解決以上問(wèn)題，構(gòu)建高質(zhì)量的元數(shù)據(jù)服務(wù)，

4、本文首先提出了一種基于語(yǔ)義標(biāo)注構(gòu)建元數(shù)據(jù)的方法，利用數(shù)據(jù)集中已有的語(yǔ)義標(biāo)注信息自動(dòng)構(gòu)建生成元數(shù)據(jù)。該方法在考慮元數(shù)據(jù)構(gòu)建效率的同時(shí)，充分借鑒了知識(shí)共享的理念，探索了利用語(yǔ)義標(biāo)注信息傳遞出來(lái)的多視角信息消除主觀認(rèn)知上“鴻溝”的可行性，并對(duì)不同結(jié)構(gòu)視圖下的元數(shù)據(jù)識(shí)別策略進(jìn)行了針對(duì)性研究。在此基礎(chǔ)上，本文進(jìn)一步研究了元數(shù)據(jù)模式語(yǔ)義異構(gòu)的問(wèn)題，提出了一種支持元數(shù)據(jù)模式語(yǔ)義集成的模式匹配方法。為了驗(yàn)證方法的適用性、評(píng)估元數(shù)據(jù)的質(zhì)量，本文又提出了一

5、種可以有效提高查準(zhǔn)率，抑制查全率低引起目標(biāo)缺失的元數(shù)據(jù)查詢方法?？紤]到檔案信息資源自身特有的使用價(jià)值及其在基礎(chǔ)信息資源中重要的地位[1]，本文在實(shí)驗(yàn)設(shè)計(jì)的出發(fā)點(diǎn)以及測(cè)試數(shù)據(jù)集的選擇上，都將目標(biāo)定位在了這個(gè)領(lǐng)域之中。具體來(lái)講，本文各項(xiàng)研究成果主要包含以下幾個(gè)方面：
　　 (1)在分析基于模板和基于機(jī)器學(xué)習(xí)兩類主要元數(shù)據(jù)抽取方法的基礎(chǔ)上，提出了一個(gè)自動(dòng)構(gòu)建元數(shù)據(jù)的方法(SAMC)。該方法能克服上述兩類方法的缺點(diǎn)與不足，不但能充分地利

6、用現(xiàn)有語(yǔ)義標(biāo)注信息對(duì)元數(shù)據(jù)進(jìn)行有效的識(shí)別和定位，而且還有機(jī)地將統(tǒng)計(jì)學(xué)理論、信息的結(jié)構(gòu)化特征、視覺(jué)布局特征等融合在一起，為SAMC的性能提供了有力的保證，因而，該方法構(gòu)建出的元數(shù)據(jù)具有更高的精確度與更強(qiáng)的信息表達(dá)能力，能夠很好地滿足對(duì)構(gòu)建高質(zhì)量元數(shù)據(jù)的要求。
　　 (2)提出了不同布局模式下識(shí)別元數(shù)據(jù)的算法。為了提高本方法中生成元數(shù)據(jù)的可行性，本文考慮了語(yǔ)義標(biāo)注信息結(jié)構(gòu)視圖差異的情況，重點(diǎn)研究了在總分、遞進(jìn)、綜合分布等序列模式下，

7、語(yǔ)義標(biāo)注信息所表現(xiàn)出來(lái)的差異特征，針對(duì)性的設(shè)計(jì)了相應(yīng)的元數(shù)據(jù)識(shí)別算法。算法中有效地利用了樹型數(shù)據(jù)結(jié)構(gòu)的層次、線性數(shù)據(jù)結(jié)構(gòu)的次序以及信息分布的頻繁程度等特征，從而使元數(shù)據(jù)識(shí)別的效果以及性能等方面都有了很好的表現(xiàn)。
　　 (3)提出了能有效支持元數(shù)據(jù)屬性級(jí)語(yǔ)義集成的模式匹配方法(PISMatching)。與相關(guān)研究相比，本研究面臨的是一個(gè)以豐富元數(shù)據(jù)模式語(yǔ)義信息為目的、以多數(shù)據(jù)源元數(shù)據(jù)模式合并為任務(wù)的新問(wèn)題。本文嘗試了將本體、敘詞表

8、和概念相似度計(jì)算結(jié)合使用，實(shí)現(xiàn)了整合各自優(yōu)點(diǎn)的目的，在實(shí)現(xiàn)難易、復(fù)雜度、語(yǔ)義強(qiáng)度等方面都擁有更好的性能。本體的引入為匹配方法準(zhǔn)確性的提高提供了強(qiáng)有力的領(lǐng)域上下文支持，基于關(guān)聯(lián)信息聯(lián)想和概率統(tǒng)計(jì)的概念相似度方法也為模式匹配提供了一個(gè)新的度量標(biāo)準(zhǔn)，該度量標(biāo)準(zhǔn)能夠發(fā)現(xiàn)積極相關(guān)的屬性以得到潛在的屬性組，也能將同義關(guān)系的屬性組保留下來(lái)。在PISMatching具體設(shè)計(jì)的表現(xiàn)力上，本文更注重匹配程度的高低排序而不是差距值的計(jì)算，這樣對(duì)實(shí)際應(yīng)用更具意

9、義；更注重對(duì)匹配可利用信息的捕獲，而減少對(duì)特定匹配模式的依賴，這樣使研究成果具有更大的靈活性、擴(kuò)展性和更廣泛的利用價(jià)值。(4)提出了利用域上下文信息度量相關(guān)性的元數(shù)據(jù)查詢方法(MFCQuery)。與傳統(tǒng)元數(shù)據(jù)查詢方式相比，為了能在查準(zhǔn)率、查全率上有進(jìn)一步地提高，MFCOuery主要從兩個(gè)方面進(jìn)行了擴(kuò)展：一是利用向量空間模型(Vector Space Model)在用戶查詢信息和元數(shù)據(jù)域上下文信息之間建立相關(guān)性計(jì)算矩陣，利用域上下文信息與

10、用戶查詢信息相關(guān)性的高低來(lái)判斷用戶的真實(shí)查詢意圖，用以提高檢索結(jié)果的查全率；另一個(gè)方面考慮到部分查詢者可能由于缺少足夠的背景知識(shí)，而無(wú)法提供必要的元數(shù)據(jù)域查詢，我們將為其匹配最相關(guān)的目標(biāo)域限制，以提高檢索結(jié)果的查準(zhǔn)率。該方法在保證傳統(tǒng)查詢方式下高精度特點(diǎn)的同時(shí)，能夠使檢索結(jié)果的查全率得到進(jìn)一步地提升。
　　 (5)細(xì)化了元數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)。從整個(gè)論文研究的出發(fā)點(diǎn)講，論文全部研究工作的主要目的是為了有效地提高元數(shù)據(jù)的質(zhì)量，使其能在具

11、體應(yīng)用領(lǐng)域發(fā)揮更大的作用。為此，本文選擇了檔案信息資源作為實(shí)驗(yàn)中的目標(biāo)應(yīng)用領(lǐng)域，而對(duì)于元數(shù)據(jù)最終質(zhì)量的評(píng)估，作者考慮到并不能單純從信息技術(shù)經(jīng)典的評(píng)估指標(biāo)查全率和查準(zhǔn)率來(lái)體現(xiàn)，所以本文嘗試了細(xì)化各項(xiàng)評(píng)估指標(biāo)，對(duì)特征不同的評(píng)估對(duì)象，采用了分化的評(píng)估比較的辦法，這樣可以在更細(xì)致的層面上反映出不同方法在元數(shù)據(jù)質(zhì)量上的影響。
　　總之，本論文通過(guò)規(guī)則、統(tǒng)計(jì)、概率等方法分別從上述各個(gè)方面對(duì)元數(shù)據(jù)相關(guān)技術(shù)進(jìn)行了深入研究。解決了元數(shù)據(jù)構(gòu)建過(guò)程

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于語(yǔ)義標(biāo)注的元數(shù)據(jù)自動(dòng)構(gòu)建及其相關(guān)技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于語(yǔ)義標(biāo)注的元數(shù)據(jù)自動(dòng)構(gòu)建及其相關(guān)技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載