基于rough集理論的本體相似性技術(shù)研究

上傳人：奔*** IP屬地：河北更新時間：2024-05-06 格式：docx 頁數(shù)：67 大?。?.55MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩66頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、　　華東交通大學(xué)　　碩士學(xué)位論文　　基于ROUGH集理論的本體相似性技術(shù)研究　　姓名：陳（王樂）　　申請學(xué)位級別：碩士&l

2、t;/b>　　專業(yè)：計算機應(yīng)用技術(shù)　　指導(dǎo)教師：黃兆華　　20080418　　摘要　　基于 Rough 集理論

3、的本體相似性技術(shù)研究　　摘要　　本體最初是一個哲學(xué)概念，用來描述事物的本質(zhì)，本體是概念、屬性和關(guān)系的集合。　　它除了應(yīng)用于語義 Web 的信息表示之外，還被廣泛地應(yīng)用于智能信息集成、協(xié)作信息　　系統(tǒng)、信息檢索、電子商務(wù)和知識管理等領(lǐng)域

4、。　　本體的應(yīng)用領(lǐng)域越來越多，其應(yīng)用的主要目的是為了知識的共享和重用。由于本體　　自身的分散性，不同的用戶可以構(gòu)造不同的本體。要想實現(xiàn)不同本體間的互操作就必須　　解決本體間的異構(gòu)問題，一般都用本體的映射來解決本體間的異構(gòu)問題。相似性提取是　　本體映射的一個重要步驟，它主要

5、是進行相似度的計算。　　本體相似度的計算廣泛應(yīng)用于信息檢索、機器翻譯、自動問答系統(tǒng)等領(lǐng)域，是一個　　非?；A(chǔ)而關(guān)鍵的問題，長期以來一直是人們研究的熱點和難點。由于各個本體提供者　　的信息源是異構(gòu)分布自治的，因此在構(gòu)建共享平臺的過程中，重點要解決的就是這些數(shù)　　據(jù)源之間的本

6、體異構(gòu)問題。本體異構(gòu)包括由不一致數(shù)據(jù)和對相同數(shù)據(jù)的多個解釋造成的　　數(shù)據(jù)級異構(gòu)和由數(shù)據(jù)的邏輯組織不相似所造成的模式級異構(gòu)。本文通過本體相似度計算　　技術(shù)來解決本體異構(gòu)問題，難點在于本體的屬性繁多，本體間關(guān)系復(fù)雜。　　本文研究了本體理論和 Rough 集理論，重點介紹了 Rough 集理論中的屬性約簡。</p

7、>　　通過對 Rough 集理論和本體的研究，在理論上確立了基于 Rough 集理論的本體相似性　　技術(shù)研究的方案，改進了現(xiàn)有的基于屬性的本體相似性度量方法，使用了一種基于二進　　制的屬性約簡方法來減少工作量。提出了 RSONSA 算法用于計算本體相似度。系統(tǒng)采　　用七步法構(gòu)建旅游領(lǐng)域

8、本體，實現(xiàn)了實驗原型，通過對系統(tǒng)應(yīng)用效果的定量分析，驗證　　了 RSONSA 算法的效果和性能。　　關(guān)鍵詞：本體，Rough 集，相似性，屬性約簡　　I　　Abstract

9、　　RESEARCH ON ONTOLOGY SIMILAR TECHNOLOGY　　BASED ON ROUGH SET THEORY　　ABSTRACT　　Ontology is originally a philosophical concept, u

10、sed to describe the essence of things,　　ontology is a collection of concepts and attributes and relations. Apart from the Semantic Web　　application to express information, it was

11、 also widely used in intelligent information　　integration, collaboration information systems, information retrieval, e-commerce and　　knowledge management, and other fields.</p

12、>　　Areas of Ontology application is more and more, Ontology application is primarily for　　sharing and reusing knowledge. Since the dispersion of their own body, different users can</

13、p>　　construct different Ontology. In order to operate different Ontologies, it must solve the　　problem of heterogeneous between ontologies.we generally used Ontology mapping between<

14、/p>　　heterogeneous ontology to solve the problem. Extraction of Ontology similarity is an　　important step of Ontology mapping, it is mainly the calculation of similarity<

15、p>　　The calculation of Ontology similarity widely used in information retrieval, machine　　translation, and automatic question answering systems, and other fields, it is a very basis and

16、　　key issue, it has been on the hot and difficult problem for a long time. Since information　　source of provider of the ontology is different, the focus is to resolve ontology heterogeneous

17、　　between the source of data in the process of building shared platform. The difference of　　Ontology construction include data heterogeneous from the inconsistencies of the data

18、and　　some explaination of same data, the pattern heterogeneous from the different of the logic　　organizations of data. The article solves the problem of heterogeneous ontology by

19、 the　　technology of computing Ontology similarity, the difficult issue is that Ontologies have many　　attribute and complex relationship.　　This paper studies

20、the Ontological Theory and Rough Set Theory, the focus is the　　introduction on Rough Set Theory of attribute reduction. Through the research of Rough Set　　Theory and ontology, we

21、 establish programme of Research on Ontology similar technology　　based on Rough Set Ontology and improve the existing Ontology similarity measurement　　method based on properties

22、of Ontology, we use a new method to reduce the workload which　　reduce properties by the use of binary Reduction, and provide RSONSA Algorithm to　　calculate the Ontology similar.

23、The system construct ontology of the field of tourism by a　　seven-step method, achieving an experimental prototype of the system. Through the　　Application of quantitative analysi

24、s, we proved the effect of RSONSA algorithm.　　Keyword: Ontology, Rough Set, Similary, Attribute Reduction　　II　　獨創(chuàng)性聲明<

25、;/p>　　本人鄭重聲明：所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的　　研究成果。盡我所知，除了文中特別加以標(biāo)注和致謝的地方外，論文中不包含其他人已　　經(jīng)發(fā)表和撰寫的研究成果，也不包含為獲得華東交通大學(xué)或其他教育機構(gòu)的學(xué)位或證書　　所使用過的材料。與我一同工作的同志對本

26、研究所做的任何貢獻均已在論文中作了明確　　的說明并表示了謝意。　　本人簽名_______________日期____________　　關(guān)于論文使用授權(quán)的說明　　本人完全了解華東交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，即：學(xué)校有權(quán)保留送<p&g

27、t;　　交論文的復(fù)印件，允許論文被查閱和借閱。學(xué)校可以公布論文的全部或部分內(nèi)容，可以　　采用影印、縮印或其他復(fù)制手段保存論文。　　保密的論文在解密后遵守此規(guī)定，本論文無保密內(nèi)容。　　本人簽名____________導(dǎo)師簽名__________日期___________&l

28、t;b>　　第一章緒論　　第一章緒論　　1.1 問題的提出及研究的意義　　1.1.1 問題的提出　　Internet作為一種分布式開放互連的信息系統(tǒng)，從出現(xiàn)的那一刻起，就開始改變?nèi)藗?lt;/p>

29、　　獲取信息及應(yīng)用服務(wù)的方式，如信息檢索、電子商務(wù)、遠程教育、數(shù)字圖書館等。WWW　　通過一系列標(biāo)實現(xiàn)不同層次上的信息交互，使用TCP/IP 協(xié)議保證線路傳輸數(shù)據(jù)的準(zhǔn)確　　性，使用HTTP協(xié)議獲取超文本。從Web技術(shù)發(fā)展過程看，可將Web劃分為三代[1]，即　　第一代（90年代后期至今）：以H

30、TML為標(biāo)志，為了展示數(shù)據(jù)內(nèi)容，而不是描述數(shù)　　據(jù)內(nèi)容本身，其實現(xiàn)了表現(xiàn)形式與文檔位置的分離。Web只是一個針對人閱讀的發(fā)布平　　臺，由一系列的超文本鏈接而成；　　第二代（90年代后期至今）：以XML為標(biāo)志，用戶可以根據(jù)需要制定能夠反映數(shù)據(jù)　　內(nèi)容的標(biāo)簽，實現(xiàn)了對文檔的有

31、效管理，即文檔結(jié)構(gòu)與表現(xiàn)形式的分離。XML以及相關(guān)　　技術(shù)的出現(xiàn)使傳統(tǒng)萬維網(wǎng)上的信息內(nèi)容從面向人瀏覽到面向機器自動處理邁出了重要　　一步；　　第三代：以RDF（S）、OWL為標(biāo)志，它將實現(xiàn)文檔含義與文檔結(jié)構(gòu)的分離作為目　　標(biāo)，這種含義

32、可以被共享，并且可以被機器處理，它將提供諸如信息代理、搜索代理、　　信息過濾等智能服務(wù)，即語義Web。　　當(dāng)前的第二代Web主要采用靜態(tài)HTML頁面, 或者動態(tài)產(chǎn)生HTML頁面的方式來發(fā)　　布信息。通常HTML頁面中只包含有格式和內(nèi)容兩方面的信息, 缺少描述內(nèi)容的元數(shù)據(jù)。

33、　　HTML 語言的這種特點決定了萬維網(wǎng)上信息內(nèi)容很難被機器所理解, 從而制約了一些　　需要對萬維網(wǎng)上海量數(shù)據(jù)進行自動化處理應(yīng)用的開發(fā)[2]。比如在信息查找方面，高速增　　長的海量信息一方面為人們提供了大量的信息，另一方面也為準(zhǔn)確找到所需信息設(shè)置了　　障礙，可能會出現(xiàn)大量冗余信息。究其原因在于，目前Web上的數(shù)據(jù)

34、僅是計算機可讀的，　　搜索引擎仍不能很好的理解人的查詢請求。目前常見的查詢策略是，將用戶的查詢請求　　分解成若干關(guān)鍵字，根據(jù)這些關(guān)鍵字計算Web文檔跟用戶請求的匹配程度，從而挑出若　　干匹配的文檔，簡單的匹配不能解決同名異義和異名同義問題。　　語義萬維網(wǎng)(Semantic

35、 Web)[3] 正是針對這一問題而提出來的。建立語義Web的目的　　是為了使計算機能夠簡單“理解”分布在網(wǎng)上的內(nèi)容,主動獲取網(wǎng)上的內(nèi)容,在簡單“理解”　　網(wǎng)上信息的基礎(chǔ)上，更好地處理、利用這些知識。語義Web的基礎(chǔ)是對網(wǎng)上內(nèi)容的描述，　　它的語義理論基礎(chǔ)是描述邏輯。本體（Ontology）是語義Web描述邏輯的

36、具體實現(xiàn)，它　　用來描述分布在網(wǎng)上異構(gòu)的內(nèi)容，領(lǐng)域相關(guān)的內(nèi)容可以擁有本領(lǐng)域特殊的本體。在語義　　Web上，任何內(nèi)容都是用本體來描述的。語義Web上每個文檔都是一個本體，這些文檔　　1　　第一章緒論

37、;　　可以構(gòu)造成大的本體，而在這些文檔內(nèi)部，又可以拆分成小的本體。在語義Web中可以　　用一個或者一族本體對某個領(lǐng)域的知識進行歸納 ,這稱為領(lǐng)域本體 [4]，例如對 Web　　Services進行描述的本體等。計算機之間通過對本體的理解來交流領(lǐng)域之間的信息；而　　在領(lǐng)域內(nèi)

38、部，多數(shù)文檔可以采用繼承自領(lǐng)域本體的本體，因此領(lǐng)域內(nèi)部的文檔在形式上　　非常相似。語義Web使用數(shù)據(jù)規(guī)整，提供語義化的信息內(nèi)容，更多地從規(guī)則和技術(shù)標(biāo)準(zhǔn)　　上使互聯(lián)網(wǎng)更加有序。　　最近幾年，本體除應(yīng)用在語義Web上之外，還被廣泛應(yīng)用在知識表示、知識共享、　　知識集成、知識重

39、用和知識管理等領(lǐng)域中，但卻存在不完全相同的定義和理解。本體的　　定義有許多種，定義之間的側(cè)重點也各不相同，但本體的本質(zhì)是對共享概念的一個正規(guī)　　清晰的描述。在計算機領(lǐng)域，本體被定義為共享概念模型的形式化的規(guī)范說明。本體通　　常包含5個建模原語：類（Class）、關(guān)系（relation）、函數(shù)（functions）

40、、公理（axioms）　　和實例（instances），用這些建模原語可以構(gòu)造和設(shè)計一個本體。　　本體的應(yīng)用領(lǐng)域越來越多，但應(yīng)用的主要目的都是為了知識的共享和重用。由于本　　體自身的分散性，不同的用戶可以構(gòu)造不同的本體，所以導(dǎo)致了在同一個或重疊的領(lǐng)域　　產(chǎn)生了許多個不同的

41、本體。即使一個小的背景領(lǐng)域也可能出現(xiàn)許多個不同的本體，不同　　的用戶對同一領(lǐng)域所建的本體都可能是不同大的。這些本體間是異構(gòu)的，它們之間不能　　進行互相操作，用戶之間也不能相互理解。因為本體的構(gòu)造是一個非常費時費力的過程，　　所以一個用戶在同一應(yīng)用領(lǐng)域中同時建立多個不同的本體是不現(xiàn)實的。在同一領(lǐng)域內(nèi)，</p&

42、gt;　　要想實現(xiàn)不同本體間的互操作就必須解決本體間的異構(gòu)問題。　　本體的異構(gòu)一般可分為結(jié)構(gòu)異構(gòu)和語義異構(gòu)。結(jié)構(gòu)異構(gòu)是指信息的表示不同，也稱　　為結(jié)構(gòu)沖突。語義異構(gòu)是指信息的意義不同。為了實現(xiàn)異構(gòu)本體間的互操作，一般可采　　用三種方法：（1）本體間建立包含關(guān)系，目標(biāo)本體簡單地包含源本體；（2

43、）本體間建　　立映射關(guān)系；（3）對本體進行合并，生成一個完整的公共本體。在這三種方法中，方　　法（1）的缺點是源本體的信息只能被復(fù)用而不能被修改。方法（3）的難度較大，不易　　實現(xiàn)。方法（2）比較合適，所以一般都用本體的映射來解決本體間的異構(gòu)問題。本體　　映射一般分信息本

44、體化、相似性提取、語義映射、映射執(zhí)行和映射后處理過程共五步來　　進行。相似性提取是本體映射的一個重要步驟，它主要是進行相似度的計算。　　1.1.2 研究的意義　　本體最初是一個哲學(xué)概念，用來描述事物的本質(zhì)[5]，本體是概念、屬性和關(guān)系的集　　合。它除了應(yīng)用于語義Web的信

45、息表示之外，還被廣泛地應(yīng)用于智能信息集成、協(xié)作信　　息系統(tǒng)、信息檢索、電子商務(wù)和知識管理等領(lǐng)域。由于本體可以描述數(shù)據(jù)的語義，所以　　在網(wǎng)絡(luò)或傳統(tǒng)數(shù)據(jù)庫中的任何數(shù)據(jù)（或元數(shù)據(jù)）都可以用本體來表示，以使不同的團體　　可以相互理解。　　應(yīng)用

46、本體的主要目的是為了知識共享和重用。隨著信息的增多，本體的數(shù)量也越來　　越多，并且單個本體不能充分完成任務(wù)，一次必須聯(lián)合多個本體來完成任務(wù)?？蒲腥藛T　　2　　第一章緒論　　提出許多構(gòu)造本體的標(biāo)準(zhǔn)

47、，其中最有影響力的是T.R.Gruber提出的5個準(zhǔn)則[3]：明確性和　　客觀性、一致性、完全性、最大單調(diào)可擴展性、最小承諾。因為本體的構(gòu)造還沒有一個　　統(tǒng)一的標(biāo)準(zhǔn)，所以在同一個領(lǐng)域內(nèi)產(chǎn)生了大量不同的本體，這些本體是異構(gòu)的。本體異　　構(gòu)是本體間互操作的主要障礙，解決本體異構(gòu)最好的辦法是本體映射，本體映射的關(guān)鍵&l

48、t;/p>　　是本體相似度的計算。只有較好地解決了本體相似度的計算問題，我們才能夠建立大規(guī)　　模的知識本體庫，進行本體的共享和重用。　　1.2 語義 Web 概述　　1.2.1 語義 Web 的提出　　語義網(wǎng)最早是在1968年由奎連（MR.Qu

49、illian）作為人類聯(lián)想記憶的一個顯示心理學(xué)　　模型提出的，1973年西蒙（R.F.Simon）研究小組將語義網(wǎng)絡(luò)用來表達自然語言理解。　　而現(xiàn)代意義上的語義網(wǎng)則是被稱為互聯(lián)網(wǎng)之父的泊納斯。李（Tim.Berners-Lee）以及　　Web和W3C（World Wide Web Consortium）的始創(chuàng)者提

50、出的稱作“Semantic Web”的新　　一代網(wǎng)絡(luò)，其基本思想就是通過在Web信息的創(chuàng)作和發(fā)布中嵌入機器可閱讀的、代表某　　類知識的標(biāo)注，使Web上的數(shù)據(jù)不僅能夠被機器用于顯示，而且能夠被機器所理解，從　　而提高信息服務(wù)的質(zhì)量，并開拓各種嶄新的、智能化的信息服務(wù)。如果進一步將這些體<

51、;p>　　現(xiàn)了數(shù)據(jù)與應(yīng)用之間聯(lián)系的知識以對用戶透明的方式嵌入各種不同的信息源，則Web頁　　面、數(shù)據(jù)庫、程序、模塊和感應(yīng)設(shè)備將通過能夠處理這種信息表示方法的agent連接起來，　　相互之間能夠理解和協(xié)作[6]。從概念定義的角度來說，伯納斯.李對語義網(wǎng)做了如下的描　　述[7]：語義萬維網(wǎng)并不是一個孤立的萬維網(wǎng)

52、，而是對當(dāng)前萬維網(wǎng)上的信息具有定義良好　　的含義，使得計算機之間以及與人類能夠更好地彼此合作。W3C對語義網(wǎng)的定義是[8]：　　語義Web是互聯(lián)網(wǎng)上數(shù)據(jù)的表達，是當(dāng)前互聯(lián)網(wǎng)的延伸，因為信息有清晰明了的含義，　　使得人與計算機能夠更好地合作。實際上我們現(xiàn)在所談的語義網(wǎng)，并沒有一個嚴(yán)格的定&l

53、t;p>　　義，而是將當(dāng)前的Web網(wǎng)絡(luò)理解為一種語法、句法（Syntactic）網(wǎng)，語義網(wǎng)概念思想的　　出現(xiàn)則是在這一層次關(guān)系上的遞進。就目前網(wǎng)絡(luò)而言，它所覆蓋的大部分功能僅僅是將　　我們輸入的信息按照某種格式顯示出來，因此有人將其稱為是一系列超媒體、數(shù)字資源　　庫及應(yīng)用平臺，再加上一些相關(guān)的命名序列[9]

54、。這種網(wǎng)絡(luò)所能做的工作就是顯示信息，　　這對于機器而言是簡單的，而我們在利用的過程中則要做聯(lián)系與解釋這些很難的工作，　　語義網(wǎng)思想出現(xiàn)的目的就是要讓計算機能夠“理解和處理”現(xiàn)在的Web上僅僅能顯示的　　數(shù)據(jù)，并為人們提供各種智能服務(wù)[10]。　　從語義萬維網(wǎng)的發(fā)展起源來看

55、，語義網(wǎng)是人工智能領(lǐng)域和Web技術(shù)相互結(jié)合的產(chǎn)　　物。人工智能中的知識過程研究不斷加深對知識表示和推理的認識，并總結(jié)出了一些新　　的描述和推理方法。而萬維網(wǎng)經(jīng)過十幾年的發(fā)展，不斷積累的海量數(shù)據(jù)和近乎‘爆炸’　　的信息需要一種新的、機器可以自動完成的方式來處理和管理?！八裕?dāng)兩個領(lǐng)域的&l

56、t;p>　　3　　第一章緒論　　積累都比較成熟，而且有了需求，就必然會走向結(jié)合”[11]?；谶@樣的分析，語義網(wǎng)建　　立的基礎(chǔ)是知識的概念化和形式化以及相應(yīng)的推理，它和人工智能有著深厚的淵源關(guān)<p&g

57、t;　　系。因此，許多分析都需要從人工智能領(lǐng)域的角度來考察，尤其是在應(yīng)用層面上考慮檢　　索代理的智能化處理。　　1.2.2 語義 Web 的目標(biāo)和特征　　語義網(wǎng)來源于人工智能，并且得益于數(shù)據(jù)挖掘、自然語言處理等很多相關(guān)領(lǐng)域的研　　究，雖然因此它們在功能和部分內(nèi)容形式上具有

58、很多相似之處，但因為各自的應(yīng)用環(huán)境　　不同，它們之間也就自然存在著許多顯著的差異。我們可以在區(qū)別一些相關(guān)領(lǐng)域概念的　　基礎(chǔ)之上歸納語義網(wǎng)的目標(biāo)和特征。　?。?）與人工智能的區(qū)別[12]；從人工智能的邏輯學(xué)派和認知學(xué)派的觀點來看，知識　　與概念化是人工智能的核心。傳統(tǒng)的人工

59、智能系統(tǒng)，要求共同遵守一些公共概念的完全　　一致的定義，并且一般都有它們各自狹義的、特有的用于信息推理的規(guī)則集合。盡管數(shù)　　據(jù)能夠從一個系統(tǒng)轉(zhuǎn)換到另一系統(tǒng)，但由于系統(tǒng)間的推理規(guī)則通常以完全不同的形式存　　在，從而致使一個系統(tǒng)的規(guī)則不能用于其他系統(tǒng)。從這一點上來看，傳統(tǒng)的人工智能是<p

60、>　　一種集中、孤立的系統(tǒng)。同樣，語義萬維網(wǎng)也是以知識的概念化表示為基礎(chǔ)展開的。語　　義萬維網(wǎng)中的知識，就是通過一系列標(biāo)準(zhǔn)和工具對資源的建模及描述。資源，是一個非　　常廣泛的概念，它可以是網(wǎng)站、網(wǎng)頁甚至網(wǎng)頁的某一個部分的內(nèi)容。這種描述采用某種　　形式的符號和表達式，對Web上與該資源相關(guān)的其它資源，以及這些

61、資源之間的關(guān)系進　　行刻畫。但是，和傳統(tǒng)的人工智能系統(tǒng)不同，語義萬維網(wǎng)的知識表示的特殊性在于，它　　本身要符合Web的分散性和通用性。知識的表示本身可能是由眾多的獨立團體或個人，　　以各種各樣的方式來提供，而這些知識卻又要求能夠被各種各樣的應(yīng)用實現(xiàn)共同理解，　　并且在一定

62、的邏輯規(guī)則指導(dǎo)下進行推理。所以語義Web上的知識具有創(chuàng)建上的分散性，　　同時又具有應(yīng)用上的通用性。這是語義Web和傳統(tǒng)的人工智能系統(tǒng)一個非常重要的區(qū)　　別。　?。?）與自然語言理解的區(qū)別[13]；雖然語義網(wǎng)的飛躍發(fā)展在很大程度上得益于與自<p&g

63、t;　　然語言處理同步研究的機器翻譯，但兩者最大的不同在于自然語言處理關(guān)心的是人的語　　言，而語義網(wǎng)則是要設(shè)計實現(xiàn)機器自己所能理解含義的交流工具。可以認為兩者在應(yīng)用　　性研究上有交叉，但研究對象卻是有著顯著區(qū)別的。并且語義網(wǎng)在機器翻譯中的突出表　　現(xiàn)僅僅是人們所直接接觸的應(yīng)用之一，不能將其定位在機器翻譯這一領(lǐng)域之

64、中。　　通過與這些密切相關(guān)領(lǐng)域概念和功能的區(qū)分，可以對語義網(wǎng)的功能目標(biāo)和環(huán)境特征　　作以簡單歸納；語義網(wǎng)的目標(biāo)是應(yīng)用有效的標(biāo)準(zhǔn)和技術(shù)使得計算機更多地理解網(wǎng)上的信　　息，從而進行知識發(fā)現(xiàn)、數(shù)據(jù)集成、信息導(dǎo)航等。從目前發(fā)展來看，語義網(wǎng)可以被看作　　是“未來萬維網(wǎng)的雛形”，它所

65、描述的信息具有明確的含義，從而使的計算機集成萬維　　網(wǎng)上的信息并進行自動處理變得更為容易。語義網(wǎng)可以提供手段將特定的信息添加到網(wǎng)　　上，并以此為基礎(chǔ)進行知識發(fā)現(xiàn)和關(guān)聯(lián)，它還提供了聲明可信賴的方式和手段。通過這　　4

66、　第一章緒論　　些，我們可以發(fā)現(xiàn)，語義網(wǎng)的環(huán)境特征包括[14]：　　（1）所有的資源都能用URI(Uniform Resource Identifier)來標(biāo)識；　　（2）資源與鏈接可以有類型；　?。?）部分、片段、不完整的信息是容許的；</p

67、>　　（4）信息不必是絕對真實的；　?。?）能支持、反映信息的變化與演化；　?。?）最小設(shè)計原則。　　1.3 相關(guān)領(lǐng)域的研究現(xiàn)狀　　國內(nèi)目前在語義Web方面的研究現(xiàn)狀是：基礎(chǔ)研究多，應(yīng)用研究少；跟蹤研究多，<p&g

68、t;　　創(chuàng)新研究少；《語義信息模型及應(yīng)用》和《語義網(wǎng)簡明教程》兩書是國內(nèi)出現(xiàn)最早的相　　關(guān)研究教材，但由于近兩年來相關(guān)標(biāo)準(zhǔn)的更新和實用開發(fā)技術(shù)的出現(xiàn)，其結(jié)構(gòu)思路也已　　經(jīng)不能夠完全適合語義Web發(fā)展的思想。國家自然科學(xué)基金前年啟動了一個重大項目　　“非規(guī)范知識的基本理論及核心技術(shù)研究”，有七個子課題，很多學(xué)校和單

69、位都參與其　　中，目前在上海交大、浙江大學(xué)、武漢大學(xué)、清華、北大、中國農(nóng)業(yè)大學(xué)等國內(nèi)高校都　　有很多專家及項目小組從事這一方面的研究，與此課題相關(guān)的多數(shù)實踐研究都處于外文　　文獻閱讀及實用工具試用分析過程中。當(dāng)前對于語義Web的研究仍舊集中在特定領(lǐng)域本　　體構(gòu)造及分析過程

70、中，這一方面是因為語義Web體系結(jié)構(gòu)的上層還正在構(gòu)建中，另一方　　面也在于本體是語義Web的核心，是構(gòu)筑語義網(wǎng)絡(luò)信息實體應(yīng)用的基礎(chǔ)。　　本體相似度的量化計算方法，現(xiàn)有兩種途徑[15]：其一是基于本體庫，利用同義詞詞　　典（Thesaurus）等計算相似度，Princiton 大學(xué)的 WordNet 就是一部樹狀的

71、英語語義詞典。　　樹狀圖上兩片樹葉的距離就是這兩個概念的語義距離，由語義距離可近一步得到本體相　　似度。其二是基于大規(guī)模的本體庫統(tǒng)計信息，利用詞語的相關(guān)性來計算相似度。通常選　　取一組特征詞，利用在實際大規(guī)模本體庫中上下文的出現(xiàn)頻率得到相關(guān)性的特征向量，　　用向量的夾角余

72、弦來計算相似度。　　本體位于從文檔描述到知識推理轉(zhuǎn)折的層次，本體的構(gòu)建是實現(xiàn)語義Web的關(guān)鍵環(huán)　　節(jié)[16]。國內(nèi)關(guān)于ontology的研究比較廣泛且較深入，相關(guān)論文[17,18 ,19]也較多,大多是在對　　ontology的定義[20,21]、基本含義以及本體語言進行簡要介紹的基礎(chǔ)上，就Ontology在相關(guān)

73、　　學(xué)科領(lǐng)域的影響、應(yīng)用及其構(gòu)造進行探討[22,23 ,24]與論述。討論相對較多的主要有本體論　　與信息檢索、本體論與數(shù)字圖書館、本體論與信息管理，此外還包括知識庫系統(tǒng)、數(shù)據(jù)　　挖掘、機器翻譯、需求分析等[24,25 ,26]。　　1.4 研究的主要問題</p&g

74、t;　　本課題研究的主要內(nèi)容就是結(jié)合Rough理論，利用其發(fā)現(xiàn)屬性間的依賴關(guān)系、約簡　　5　　第一章緒論　　冗余屬性與對象，確定屬性的權(quán)重，從語義角度來計算領(lǐng)域本體的相似度，主要包括領(lǐng)<

75、;p>　　域本體構(gòu)建、信息資源收集等，最后提出基于Rough集的本體相似性度量算法。重點放　　在領(lǐng)域本體的構(gòu)建和相似性度量上。　　1.5 主要創(chuàng)新點　　本文在以下兩個方面有所創(chuàng)新：　　一是提出了結(jié)合Rough理論中的方法來度量本

76、體的相似度。主要是利用Rough理論　　來發(fā)現(xiàn)屬性間的依賴關(guān)系，進行屬性約簡，度量屬性間的重要度，以此來確定每個屬性　　的權(quán)重值，克服已有方法中對屬性權(quán)重值系數(shù)的人為確定的隨意性。　　二是設(shè)計了一個以O(shè)WL作為本體描述語言，采用Rough理論方法進行度量的本體相　　似度計

77、算系統(tǒng)，并實現(xiàn)了實驗原型。通過該系統(tǒng)的應(yīng)用效果定量分析，驗證了基于Rough　　的本體相似性研究的效果和性能。　　1.6 各章節(jié)安排　　全文共由六章組成。緒論部分扼要闡述了課題研究的目的和意義，通過分析相關(guān)領(lǐng)　　域研究現(xiàn)狀，提出了課題

78、要解決的關(guān)鍵問題，最后介紹了主要創(chuàng)新點。　　第二章介紹本體的分類、描述語言，以及如何用描述邏輯語言描述領(lǐng)域問題。　　第三章主要介紹了Rough集理論中的屬性約簡理論。概述了Rough集的基本概念，　　重點介紹屬性約簡的基礎(chǔ)知識，分析了現(xiàn)有的屬性約簡理論。　　第四章介紹了現(xiàn)

79、有的本體相似度計算方法，提出了基于二進制的差別矩陣屬性約簡　　算法和基于Rough集的本體相似度計算算法，為基于Rough集的本體相似度度量系統(tǒng)的　　順利實施奠定了基礎(chǔ)。　　第五章介紹了主要開發(fā)工具，并構(gòu)建了一個旅游本體，設(shè)計實現(xiàn)了基于Rough集的　　本體相似度度量系統(tǒng)

80、，并且通過試驗系統(tǒng)驗證了該方案的實踐上的正確性和可行性。　　第六章給出了本課題研究的主要結(jié)論，并探討了進一步研究的方向。　　6　　第二章語義 Web 及本體　　第二章語義 Web 及本體

81、　2.1 語義 Web 體系結(jié)構(gòu)　　在XML 2000會議上，Tim Berners-Lee首次給出了語義Web基本構(gòu)架[29]，它是個功　　能逐層增強的層次化結(jié)構(gòu)，如圖2-1。2001年2月W3C組織正式推出Semantic Web Activity,　　它成為推動語義網(wǎng)研究和發(fā)展的主要力量。

82、;　　圖 2-1 語義網(wǎng)體系結(jié)構(gòu)圖　　Fig2-1　　Structure Graph of Semantic Web　　第一層：Unicode和URI。Unicode是一個字符集，這個字符集中所有字符都用兩個

83、字節(jié)表示，可以表示65536個字符，基本上包括了世界上所有語言的字符。數(shù)據(jù)格式采　　用Unicode的好處就是它支持世界上所有主要語言的混合，并且可以同時進行檢索。　　URI(Uniform Resource Identifier)，即統(tǒng)一資源定位符，用于唯一標(biāo)識網(wǎng)絡(luò)上的一個概念　　或資源。在語義網(wǎng)體系結(jié)構(gòu)中，該

84、層是整個語義網(wǎng)的基礎(chǔ)，其中Unicode負責(zé)處理資源　　的編碼，URI負責(zé)資源的標(biāo)識[27]。　　第二層：XML+NS+xmlschema。 XML是一個精簡的SGML，它綜合了SGML的豐　　富功能與HTML的易用性，它允許用戶在文檔中加入任意的結(jié)構(gòu)，而無需說明這些結(jié)構(gòu)

85、　　的含意。NS(Name Space)即命名空間，由URI索引確定，目的是為了避免不同的應(yīng)用使　　用同樣的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品，它　　本身采用XML語法，但比DTD更加靈活，提供更多的數(shù)據(jù)類型，能更好地為有效的XML　　文檔服務(wù)并提供數(shù)

86、據(jù)校驗機制。正是由于XML靈活的結(jié)構(gòu)性、由URI索引的NS而帶來的　　數(shù)據(jù)可確定性以及XML Schema所提供的多種數(shù)據(jù)類型及檢驗機制，使其成為語義網(wǎng)體　　系結(jié)構(gòu)的重要組成部分。該層負責(zé)從語法上表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)，通過使用標(biāo)準(zhǔn)的語　　言將網(wǎng)絡(luò)信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分離[28]。

87、　　7　　第二章語義 Web 及本體　　第三層：RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言，其目　　標(biāo)是建立一種供多種元數(shù)據(jù)標(biāo)準(zhǔn)共存的框架。該框架能充分利用各種元數(shù)據(jù)的優(yōu)勢，進　　行基

88、于Web 的數(shù)據(jù)交換和再利用。RDF解決的是如何采用XML標(biāo)準(zhǔn)語法無二義性地描　　述資源對象的問題，使得所描述的資源的元數(shù)據(jù)信息成為機器可理解的信息。如果把　　XML看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語法規(guī)范的話，那么RDF就可以看作為一種標(biāo)準(zhǔn)化的元　　數(shù)據(jù)語義描述規(guī)范。Rdfschema使用一種機器可以理解的體系來定義描

89、述資源的詞匯，　　其目的是提供詞匯嵌入的機制或框架，在該框架下多種詞匯可以集成在一起實現(xiàn)對Web　　資源的描述。　　第四層：Ontology vocabulary。該層是在RDF(S)基礎(chǔ)上定義的概念及其關(guān)系的抽象　　描述，用于描述應(yīng)

90、用領(lǐng)域的知識[32]，描述各類資源及資源之間的關(guān)系，實現(xiàn)對詞匯表的　　擴展。在這一層，用戶不僅可以定義概念而且可以定義概念之間豐富的關(guān)系[30]。　　第五至七層：Logic、Proof、Trust。Logic負責(zé)提供公理和推理規(guī)則，而Logic一旦　　建立，便可以通過邏輯推理對資源、資源之間的關(guān)系以及推理結(jié)果進行

91、驗證，證明其有　　效性。通過Proof交換以及數(shù)字簽名，建立一定的信任關(guān)系，從而證明語義網(wǎng)輸出的可靠　　性以及其是否符合用戶的要求。　　2.2 本體的定義和分類　　2.2.1 本體的定義　　在計算機界，明確本體的定義經(jīng)歷了一個過程

92、。1993年，Gruber給出了本體的一個　　最為流行的定義，即“本體是概念模型的明確的規(guī)范說明”　　[31]　　修改，提出：“本體是共享模型的形式化規(guī)范說明”。Studer等對上述兩個定義進行了　　深入的研究，認為本體是共享概念模型

93、的明確的形式化規(guī)范說明。這個定義包含4層含　　義：概念化（Conceptualization）、明確（Explicit）、形式化（Formal）和共享（Share）　　[32]　　“概念化”指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到概述模型，即概念

94、　　系統(tǒng)所蘊涵的語義結(jié)構(gòu)，是對某一事實結(jié)構(gòu)的一組非正式的約束規(guī)則，可以理解和表達　　為一組概念（如實體、屬性、過程）、定義和關(guān)系。　　“明確”指所使用的概念及使用這些概念的約束都有明確的定義。　　“形式化”指本體中體現(xiàn)的是共同認可的知識，反映的是相關(guān)領(lǐng)域中公認的概念集，&

95、lt;p>　　即本體針對的是社會范疇而非個體之間的共識。　　除上述定義外，不少文獻從不同的問題域和研究角度出發(fā)，對本體又給出了各種各　　樣的定義?？偠灾?，本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識，提供對該領(lǐng)域　　知識的共同理解，確定該領(lǐng)域內(nèi)共同認可的詞匯，并從不同層次的形式化模式上給出這</p&g

96、t;　　些詞匯（術(shù)語）和詞匯間相互關(guān)系的明確定義。　　8　　第二章語義 Web 及本體　　本體的研究與應(yīng)用主要包括3個方面[33]：（1）理論上的研究，主要研究概念及其分　　類、本體上的代數(shù)；（2）在信息系統(tǒng)中

97、的應(yīng)用，主要包括處理信息組織、信息檢索和　　異構(gòu)信息系統(tǒng)互操作問題；（3）本體作為一種能在知識層提供知識共享和重用的工具　　在語義Web中的應(yīng)用。　　2.2.2 本體的分類　　對不同的研究者，本體可以是一個邏輯理論、一個形式化語義記錄、邏輯理論詞匯、

98、　　或概念化規(guī)約，但是依然可以看出，這些定義有著共同的目標(biāo)，它們都是捕獲相關(guān)領(lǐng)域　　的知識，提供對該知識的共同理解，確定該領(lǐng)域內(nèi)共同認可的詞匯，并從不同層次的形　　式化模式上給出這些詞匯（術(shù)語）和詞匯之間相互關(guān)系的明確定義[34]。根據(jù)本體不同方　　面的屬性（如形式化程度和描述的對象）可以對本

99、體進行不同的分類[35]。　　根據(jù)本體的形式化程度不同，可以把本體分為：　　高度非形式化的（high-informal）用自然語言自由隨意地表達；　　結(jié)構(gòu)非形式化的（structured-informal）用受限定的結(jié)構(gòu)式自然語言表達。　　半形式化的（semi-for

100、mal）用人工定義的形式語言表達；　　嚴(yán)格形式化的（rigorously formal）用屬性的形式語義、定理和證明嚴(yán)格、仔細地　　定義術(shù)語。并使之具有正確性和完整性。　　根據(jù)本體的描述對象不同，可以把本體分為特殊領(lǐng)域本體（如醫(yī)藥、地理、金融等）、　　一般世界知識本體

101、、問題求解本體和知識表示語言本體。　　Guarino提出以詳細程度和領(lǐng)域依賴度作為本體的劃分基礎(chǔ)[36]，詳細程度是指描述　　或刻畫建模對象的程度，它是一個相對的較模糊的概念。詳細程度高的本體稱為參考本　　體，詳細程度低的本體稱為共享本體。依照領(lǐng)域依賴程度可以分為頂級本體、領(lǐng)域本體、<

102、;p>　　任務(wù)本體和應(yīng)用本體四類，其中：（1）頂級本體：描述的是最普通的概念及概念之間　　的關(guān)系，如空間、時間、事件等，與具體的應(yīng)用無關(guān)。其它種類的本體都是該類本體的　　特例。（2）領(lǐng)域本體：描述的是特定領(lǐng)域（醫(yī)藥、地理等）中的概念及概念之間的關(guān)　　系。（3）任務(wù)本體：描述的是特定任務(wù)和行為中的概念及概念之

103、間的關(guān)系。（4）應(yīng)用　　本體：描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。　　1999年P(guān)erez和Ben jamins在分析和研究了各種本體的分類法的基礎(chǔ)上歸納出10種本　　體[40]：知識表示本體、普通本體、頂級本體、元本體、領(lǐng)域本體、語言本體、任務(wù)本體、

104、領(lǐng)域-任務(wù)本體、方法本體和應(yīng)用本體。該分類方法是對Guarino所提出分類方法的擴充　　和細化。但這10種本體之間有交叉，層次不夠清晰。　　2.3 本體的建模　　對于本體的具體構(gòu)造過程，可以用下面的公式形象地給出：　　本體=概念（Co

105、ncept）+屬性(Property)+公理(Axiom)+取值(Value)+名義(Nominal)[10]　　9　　第二章語義 Web 及本體　　概念可分成“原始概念（Primitive concept）”（屬性是必要條件，而非充要條件的<

106、p>　　情況）和“定義概念（Defined concepts）”(屬性是充分必要條件的情況)兩種。屬性則是　　對概念特征或性質(zhì)的描述。例如：“人是哺乳動物”是簡單概念，“素數(shù)是只能被1和　　自身整除的正整數(shù)”則是定義概念。至于“公理”，即是定義在“概念”和“屬性”上　　的限定和規(guī)則?！叭≈怠眲t是具體的賦值，

107、“名義”是無實例的概念或者是用在概念定　　義中的實例。　　從語義上分析，實例表示的就是對象，而概念表示的則是對象的集合，關(guān)系對應(yīng)于　　對象元組的集合。概念的定義一般采用框架結(jié)構(gòu)，包括概念的名稱，與其他概念之間關(guān)　　系的集合，以及用自然

108、語言對該概念的描述?；镜年P(guān)系有四種：part-of ，kind-of，　　instance-of和attribute-of。part-of表達概念之間部分與整體的關(guān)系，kind-of表達概念之間　　的繼承關(guān)系，instance-of表達概念的實例和概念之間的關(guān)系，attribute-of表達某個概念是　　另外一

109、個概念的屬性。如圖2-2用一個簡單的有向圖來表示一個簡單的運輸本體。　　圖 2-2　　運輸本體　　Fig2-2　　Ontology of Transport&

110、lt;/p>　　Perez等人用分類法組織本體,歸納出5個基本建模原語來形式化表示本體[37]:　　類(classer)或概念(concepts):指任何事務(wù),如任務(wù)、功能、行為、策略和推理過程。從　　語義上講，它表示的是對象的集合，其定義一般采用框架（frame）結(jié)構(gòu)，包括概念的

111、名稱，與其它概念之間的關(guān)系的集合，以及用自然語言對概念的描述。　　關(guān)系（relations）:在領(lǐng)域中概念之間的交互作用，形式上定義為n維笛卡兒積的子集：　　R:C1*C2*…*Cn.如子類關(guān)系（subclass-of）。在語義上關(guān)系對應(yīng)于對象元組的集合。　　函數(shù)（functions）:一類特殊的關(guān)系。該關(guān)系的前

112、n-1個元素可以唯一決定第n個元素。　　10　　第二章語義 Web 及本體　　形式化的定義為F:C1*C2*…*Cn-1->Cn。如Price-of-a-used-car就是一個函數(shù)，是根據(jù)車　　型、制造日期、行駛路程計算的二

113、手車的價格。　　公理（axioms）:代表永真斷言，如概念乙屬于概念甲的范圍。　　實例（instances）:代表元素。從語義上將實例表示的就是對象。　　在實際建模過程中，可以根據(jù)具體的需要定義概念之間的關(guān)系，并不局限于前面所　　述的4種。一般來說，在構(gòu)造一個本體時需要經(jīng)

114、過以下幾步：　　確定本體領(lǐng)域和范圍。對具體研究領(lǐng)域建立相應(yīng)的本體，領(lǐng)域越大，所建本體就越　　大，因此需要限制研究的范圍；　　可以考慮復(fù)用現(xiàn)有的本體。如果所研究的領(lǐng)域需要用到其它領(lǐng)域的知識，那么直接　　復(fù)用已有的本體，可以提高資源的利用率；<p

115、>　　列舉出本體中的重要術(shù)語。把所研究領(lǐng)域的各個實體對象及其屬性、關(guān)系等用術(shù)語　　表示出來；　　定義類和類層次。類定義是指一個類的描述，其中包括類型定義，相關(guān)子類的定義　　等。在定義類層次時可以用三中不同的方法：（1）、先定義最全面的概念然后再對概

116、　　念進行細化，即按自頂向下的方向來進行；（2）、先定義最具體的概念，然后再把具　　體概念組合成最具概括性的概念，即按自底向上的方向來進行；（3）把上述兩種想結(jié)　　合，即按自頂向下和自底向上的兩個方向同時進行。　　定義類的屬性。對類進行定義時，可以同時定義類的屬性。比較常用的屬性類型有<

117、/p>　　字符型、數(shù)值型、布爾型和枚舉型。　　定義槽的約束。一個槽可以有許多面。它們分別來描述值的大小、值的類型、值的　　范圍、值的維度等。　　生成實例。定義一個類所需要的單個實例，這個過程需要三步，即（1）選擇一個<

118、p>　　類；（2）生成類的單個實例；（3）填充槽的值。　　Grulzer于1995年在文獻[38]中提出本體發(fā)展過程中構(gòu)建本體的標(biāo)準(zhǔn)和原則：清晰性　　(clarity)、明確性和客觀性，完全性(Completenese)，一致性(Coherence)，最大單調(diào)擴展　　性(Extendibility)，最小承

119、諾(Minimal ontological commitment)和最小編碼偏好(Minimal　　encoding bias)。　　5條準(zhǔn)則給出了構(gòu)造本體的基本思路和框架，在遵循上述規(guī)則的基礎(chǔ)上，人們創(chuàng)建　　了許多的本體。Mariano在研究了現(xiàn)有各類構(gòu)建本體的方法的基礎(chǔ)上，歸納出目前5種比

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于rough集理論的本體相似性技術(shù)研究

文檔簡介

溫馨提示

最新文檔

評論

基于rough集理論的本體相似性技術(shù)研究

文檔簡介

溫馨提示

最新文檔

評論

免費下載