2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  華東交通大學(xué)</b></p><p><b>  碩士學(xué)位論文</b></p><p>  基于ROUGH集理論的本體相似性技術(shù)研究</p><p><b>  姓名:陳(王樂)</b></p><p><b>  申請學(xué)位級別:碩士&l

2、t;/b></p><p>  專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)</p><p><b>  指導(dǎo)教師:黃兆華</b></p><p><b>  20080418</b></p><p><b>  摘要</b></p><p>  基于 Rough 集理論

3、的本體相似性技術(shù)研究</p><p><b>  摘要</b></p><p>  本體最初是一個(gè)哲學(xué)概念,用來描述事物的本質(zhì),本體是概念、屬性和關(guān)系的集合。</p><p>  它除了應(yīng)用于語義 Web 的信息表示之外,還被廣泛地應(yīng)用于智能信息集成、協(xié)作信息</p><p>  系統(tǒng)、信息檢索、電子商務(wù)和知識管理等領(lǐng)域

4、。</p><p>  本體的應(yīng)用領(lǐng)域越來越多,其應(yīng)用的主要目的是為了知識的共享和重用。由于本體</p><p>  自身的分散性,不同的用戶可以構(gòu)造不同的本體。要想實(shí)現(xiàn)不同本體間的互操作就必須</p><p>  解決本體間的異構(gòu)問題,一般都用本體的映射來解決本體間的異構(gòu)問題。相似性提取是</p><p>  本體映射的一個(gè)重要步驟,它主要

5、是進(jìn)行相似度的計(jì)算。</p><p>  本體相似度的計(jì)算廣泛應(yīng)用于信息檢索、機(jī)器翻譯、自動問答系統(tǒng)等領(lǐng)域,是一個(gè)</p><p>  非?;A(chǔ)而關(guān)鍵的問題,長期以來一直是人們研究的熱點(diǎn)和難點(diǎn)。由于各個(gè)本體提供者</p><p>  的信息源是異構(gòu)分布自治的,因此在構(gòu)建共享平臺的過程中,重點(diǎn)要解決的就是這些數(shù)</p><p>  據(jù)源之間的本

6、體異構(gòu)問題。本體異構(gòu)包括由不一致數(shù)據(jù)和對相同數(shù)據(jù)的多個(gè)解釋造成的</p><p>  數(shù)據(jù)級異構(gòu)和由數(shù)據(jù)的邏輯組織不相似所造成的模式級異構(gòu)。本文通過本體相似度計(jì)算</p><p>  技術(shù)來解決本體異構(gòu)問題,難點(diǎn)在于本體的屬性繁多,本體間關(guān)系復(fù)雜。</p><p>  本文研究了本體理論和 Rough 集理論,重點(diǎn)介紹了 Rough 集理論中的屬性約簡。</p

7、><p>  通過對 Rough 集理論和本體的研究,在理論上確立了基于 Rough 集理論的本體相似性</p><p>  技術(shù)研究的方案,改進(jìn)了現(xiàn)有的基于屬性的本體相似性度量方法,使用了一種基于二進(jìn)</p><p>  制的屬性約簡方法來減少工作量。提出了 RSONSA 算法用于計(jì)算本體相似度。系統(tǒng)采</p><p>  用七步法構(gòu)建旅游領(lǐng)域

8、本體,實(shí)現(xiàn)了實(shí)驗(yàn)原型,通過對系統(tǒng)應(yīng)用效果的定量分析,驗(yàn)證</p><p>  了 RSONSA 算法的效果和性能。</p><p>  關(guān)鍵詞:本體,Rough 集,相似性,屬性約簡</p><p><b>  I</b></p><p><b>  Abstract</b></p>

9、<p>  RESEARCH ON ONTOLOGY SIMILAR TECHNOLOGY</p><p>  BASED ON ROUGH SET THEORY</p><p><b>  ABSTRACT</b></p><p>  Ontology is originally a philosophical concept, u

10、sed to describe the essence of things,</p><p>  ontology is a collection of concepts and attributes and relations. Apart from the Semantic Web</p><p>  application to express information, it was

11、 also widely used in intelligent information</p><p>  integration, collaboration information systems, information retrieval, e-commerce and</p><p>  knowledge management, and other fields.</p

12、><p>  Areas of Ontology application is more and more, Ontology application is primarily for</p><p>  sharing and reusing knowledge. Since the dispersion of their own body, different users can</

13、p><p>  construct different Ontology. In order to operate different Ontologies, it must solve the</p><p>  problem of heterogeneous between ontologies.we generally used Ontology mapping between<

14、/p><p>  heterogeneous ontology to solve the problem. Extraction of Ontology similarity is an</p><p>  important step of Ontology mapping, it is mainly the calculation of similarity</p><

15、p>  The calculation of Ontology similarity widely used in information retrieval, machine</p><p>  translation, and automatic question answering systems, and other fields, it is a very basis and</p>

16、<p>  key issue, it has been on the hot and difficult problem for a long time. Since information</p><p>  source of provider of the ontology is different, the focus is to resolve ontology heterogeneous

17、</p><p>  between the source of data in the process of building shared platform. The difference of</p><p>  Ontology construction include data heterogeneous from the inconsistencies of the data

18、and</p><p>  some explaination of same data, the pattern heterogeneous from the different of the logic</p><p>  organizations of data. The article solves the problem of heterogeneous ontology by

19、 the</p><p>  technology of computing Ontology similarity, the difficult issue is that Ontologies have many</p><p>  attribute and complex relationship.</p><p>  This paper studies

20、the Ontological Theory and Rough Set Theory, the focus is the</p><p>  introduction on Rough Set Theory of attribute reduction. Through the research of Rough Set</p><p>  Theory and ontology, we

21、 establish programme of Research on Ontology similar technology</p><p>  based on Rough Set Ontology and improve the existing Ontology similarity measurement</p><p>  method based on properties

22、of Ontology, we use a new method to reduce the workload which</p><p>  reduce properties by the use of binary Reduction, and provide RSONSA Algorithm to</p><p>  calculate the Ontology similar.

23、The system construct ontology of the field of tourism by a</p><p>  seven-step method, achieving an experimental prototype of the system. Through the</p><p>  Application of quantitative analysi

24、s, we proved the effect of RSONSA algorithm.</p><p>  Keyword: Ontology, Rough Set, Similary, Attribute Reduction</p><p><b>  II</b></p><p><b>  獨(dú)創(chuàng)性聲明</b><

25、;/p><p>  本人鄭重聲明:所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的</p><p>  研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已</p><p>  經(jīng)發(fā)表和撰寫的研究成果,也不包含為獲得華東交通大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書</p><p>  所使用過的材料。與我一同工作的同志對本

26、研究所做的任何貢獻(xiàn)均已在論文中作了明確</p><p>  的說明并表示了謝意。</p><p>  本人簽名_______________日期____________</p><p>  關(guān)于論文使用授權(quán)的說明</p><p>  本人完全了解華東交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送</p><p&g

27、t;  交論文的復(fù)印件,允許論文被查閱和借閱。學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以</p><p>  采用影印、縮印或其他復(fù)制手段保存論文。</p><p>  保密的論文在解密后遵守此規(guī)定,本論文無保密內(nèi)容。</p><p>  本人簽名____________導(dǎo)師簽名__________日期___________</p><p>&l

28、t;b>  第一章 緒論</b></p><p><b>  第一章 緒論</b></p><p>  1.1 問題的提出及研究的意義</p><p>  1.1.1 問題的提出</p><p>  Internet作為一種分布式開放互連的信息系統(tǒng),從出現(xiàn)的那一刻起,就開始改變?nèi)藗?lt;/p>

29、<p>  獲取信息及應(yīng)用服務(wù)的方式,如信息檢索、電子商務(wù)、遠(yuǎn)程教育、數(shù)字圖書館等。WWW</p><p>  通過一系列標(biāo)實(shí)現(xiàn)不同層次上的信息交互,使用TCP/IP 協(xié)議保證線路傳輸數(shù)據(jù)的準(zhǔn)確</p><p>  性,使用HTTP協(xié)議獲取超文本。從Web技術(shù)發(fā)展過程看,可將Web劃分為三代[1],即</p><p>  第一代(90年代后期至今):以H

30、TML為標(biāo)志,為了展示數(shù)據(jù)內(nèi)容,而不是描述數(shù)</p><p>  據(jù)內(nèi)容本身,其實(shí)現(xiàn)了表現(xiàn)形式與文檔位置的分離。Web只是一個(gè)針對人閱讀的發(fā)布平</p><p>  臺,由一系列的超文本鏈接而成;</p><p>  第二代(90年代后期至今):以XML為標(biāo)志,用戶可以根據(jù)需要制定能夠反映數(shù)據(jù)</p><p>  內(nèi)容的標(biāo)簽,實(shí)現(xiàn)了對文檔的有

31、效管理,即文檔結(jié)構(gòu)與表現(xiàn)形式的分離。XML以及相關(guān)</p><p>  技術(shù)的出現(xiàn)使傳統(tǒng)萬維網(wǎng)上的信息內(nèi)容從面向人瀏覽到面向機(jī)器自動處理邁出了重要</p><p><b>  一步;</b></p><p>  第三代:以RDF(S)、OWL為標(biāo)志,它將實(shí)現(xiàn)文檔含義與文檔結(jié)構(gòu)的分離作為目</p><p>  標(biāo),這種含義

32、可以被共享,并且可以被機(jī)器處理,它將提供諸如信息代理、搜索代理、</p><p>  信息過濾等智能服務(wù),即語義Web。</p><p>  當(dāng)前的第二代Web主要采用靜態(tài)HTML頁面, 或者動態(tài)產(chǎn)生HTML頁面的方式來發(fā)</p><p>  布信息。通常HTML頁面中只包含有格式和內(nèi)容兩方面的信息, 缺少描述內(nèi)容的元數(shù)據(jù)。</p><p>

33、  HTML 語言的這種特點(diǎn)決定了萬維網(wǎng)上信息內(nèi)容很難被機(jī)器所理解, 從而制約了一些</p><p>  需要對萬維網(wǎng)上海量數(shù)據(jù)進(jìn)行自動化處理應(yīng)用的開發(fā)[2]。比如在信息查找方面,高速增</p><p>  長的海量信息一方面為人們提供了大量的信息,另一方面也為準(zhǔn)確找到所需信息設(shè)置了</p><p>  障礙,可能會出現(xiàn)大量冗余信息。究其原因在于,目前Web上的數(shù)據(jù)

34、僅是計(jì)算機(jī)可讀的,</p><p>  搜索引擎仍不能很好的理解人的查詢請求。目前常見的查詢策略是,將用戶的查詢請求</p><p>  分解成若干關(guān)鍵字,根據(jù)這些關(guān)鍵字計(jì)算Web文檔跟用戶請求的匹配程度,從而挑出若</p><p>  干匹配的文檔,簡單的匹配不能解決同名異義和異名同義問題。</p><p>  語義萬維網(wǎng)(Semantic

35、 Web)[3] 正是針對這一問題而提出來的。建立語義Web的目的</p><p>  是為了使計(jì)算機(jī)能夠簡單“理解”分布在網(wǎng)上的內(nèi)容,主動獲取網(wǎng)上的內(nèi)容,在簡單“理解”</p><p>  網(wǎng)上信息的基礎(chǔ)上,更好地處理、利用這些知識。語義Web的基礎(chǔ)是對網(wǎng)上內(nèi)容的描述,</p><p>  它的語義理論基礎(chǔ)是描述邏輯。本體(Ontology)是語義Web描述邏輯的

36、具體實(shí)現(xiàn),它</p><p>  用來描述分布在網(wǎng)上異構(gòu)的內(nèi)容,領(lǐng)域相關(guān)的內(nèi)容可以擁有本領(lǐng)域特殊的本體。在語義</p><p>  Web上,任何內(nèi)容都是用本體來描述的。語義Web上每個(gè)文檔都是一個(gè)本體,這些文檔</p><p><b>  1</b></p><p><b>  第一章 緒論</b>

37、;</p><p>  可以構(gòu)造成大的本體,而在這些文檔內(nèi)部,又可以拆分成小的本體。在語義Web中可以</p><p>  用一個(gè)或者一族本體對某個(gè)領(lǐng)域的知識進(jìn)行歸納 ,這稱為領(lǐng)域本體 [4],例如對 Web</p><p>  Services進(jìn)行描述的本體等。計(jì)算機(jī)之間通過對本體的理解來交流領(lǐng)域之間的信息;而</p><p>  在領(lǐng)域內(nèi)

38、部,多數(shù)文檔可以采用繼承自領(lǐng)域本體的本體,因此領(lǐng)域內(nèi)部的文檔在形式上</p><p>  非常相似。語義Web使用數(shù)據(jù)規(guī)整,提供語義化的信息內(nèi)容,更多地從規(guī)則和技術(shù)標(biāo)準(zhǔn)</p><p>  上使互聯(lián)網(wǎng)更加有序。</p><p>  最近幾年,本體除應(yīng)用在語義Web上之外,還被廣泛應(yīng)用在知識表示、知識共享、</p><p>  知識集成、知識重

39、用和知識管理等領(lǐng)域中,但卻存在不完全相同的定義和理解。本體的</p><p>  定義有許多種,定義之間的側(cè)重點(diǎn)也各不相同,但本體的本質(zhì)是對共享概念的一個(gè)正規(guī)</p><p>  清晰的描述。在計(jì)算機(jī)領(lǐng)域,本體被定義為共享概念模型的形式化的規(guī)范說明。本體通</p><p>  常包含5個(gè)建模原語:類(Class)、關(guān)系(relation)、函數(shù)(functions)

40、、公理(axioms)</p><p>  和實(shí)例(instances),用這些建模原語可以構(gòu)造和設(shè)計(jì)一個(gè)本體。</p><p>  本體的應(yīng)用領(lǐng)域越來越多,但應(yīng)用的主要目的都是為了知識的共享和重用。由于本</p><p>  體自身的分散性,不同的用戶可以構(gòu)造不同的本體,所以導(dǎo)致了在同一個(gè)或重疊的領(lǐng)域</p><p>  產(chǎn)生了許多個(gè)不同的

41、本體。即使一個(gè)小的背景領(lǐng)域也可能出現(xiàn)許多個(gè)不同的本體,不同</p><p>  的用戶對同一領(lǐng)域所建的本體都可能是不同大的。這些本體間是異構(gòu)的,它們之間不能</p><p>  進(jìn)行互相操作,用戶之間也不能相互理解。因?yàn)楸倔w的構(gòu)造是一個(gè)非常費(fèi)時(shí)費(fèi)力的過程,</p><p>  所以一個(gè)用戶在同一應(yīng)用領(lǐng)域中同時(shí)建立多個(gè)不同的本體是不現(xiàn)實(shí)的。在同一領(lǐng)域內(nèi),</p&

42、gt;<p>  要想實(shí)現(xiàn)不同本體間的互操作就必須解決本體間的異構(gòu)問題。</p><p>  本體的異構(gòu)一般可分為結(jié)構(gòu)異構(gòu)和語義異構(gòu)。結(jié)構(gòu)異構(gòu)是指信息的表示不同,也稱</p><p>  為結(jié)構(gòu)沖突。語義異構(gòu)是指信息的意義不同。為了實(shí)現(xiàn)異構(gòu)本體間的互操作,一般可采</p><p>  用三種方法:(1)本體間建立包含關(guān)系,目標(biāo)本體簡單地包含源本體;(2

43、)本體間建</p><p>  立映射關(guān)系;(3)對本體進(jìn)行合并,生成一個(gè)完整的公共本體。在這三種方法中,方</p><p>  法(1)的缺點(diǎn)是源本體的信息只能被復(fù)用而不能被修改。方法(3)的難度較大,不易</p><p>  實(shí)現(xiàn)。方法(2)比較合適,所以一般都用本體的映射來解決本體間的異構(gòu)問題。本體</p><p>  映射一般分信息本

44、體化、相似性提取、語義映射、映射執(zhí)行和映射后處理過程共五步來</p><p>  進(jìn)行。相似性提取是本體映射的一個(gè)重要步驟,它主要是進(jìn)行相似度的計(jì)算。</p><p>  1.1.2 研究的意義</p><p>  本體最初是一個(gè)哲學(xué)概念,用來描述事物的本質(zhì)[5],本體是概念、屬性和關(guān)系的集</p><p>  合。它除了應(yīng)用于語義Web的信

45、息表示之外,還被廣泛地應(yīng)用于智能信息集成、協(xié)作信</p><p>  息系統(tǒng)、信息檢索、電子商務(wù)和知識管理等領(lǐng)域。由于本體可以描述數(shù)據(jù)的語義,所以</p><p>  在網(wǎng)絡(luò)或傳統(tǒng)數(shù)據(jù)庫中的任何數(shù)據(jù)(或元數(shù)據(jù))都可以用本體來表示,以使不同的團(tuán)體</p><p><b>  可以相互理解。</b></p><p>  應(yīng)用

46、本體的主要目的是為了知識共享和重用。隨著信息的增多,本體的數(shù)量也越來</p><p>  越多,并且單個(gè)本體不能充分完成任務(wù),一次必須聯(lián)合多個(gè)本體來完成任務(wù)。科研人員</p><p><b>  2</b></p><p><b>  第一章 緒論</b></p><p>  提出許多構(gòu)造本體的標(biāo)準(zhǔn)

47、,其中最有影響力的是T.R.Gruber提出的5個(gè)準(zhǔn)則[3]:明確性和</p><p>  客觀性、一致性、完全性、最大單調(diào)可擴(kuò)展性、最小承諾。因?yàn)楸倔w的構(gòu)造還沒有一個(gè)</p><p>  統(tǒng)一的標(biāo)準(zhǔn),所以在同一個(gè)領(lǐng)域內(nèi)產(chǎn)生了大量不同的本體,這些本體是異構(gòu)的。本體異</p><p>  構(gòu)是本體間互操作的主要障礙,解決本體異構(gòu)最好的辦法是本體映射,本體映射的關(guān)鍵&l

48、t;/p><p>  是本體相似度的計(jì)算。只有較好地解決了本體相似度的計(jì)算問題,我們才能夠建立大規(guī)</p><p>  模的知識本體庫,進(jìn)行本體的共享和重用。</p><p>  1.2 語義 Web 概述</p><p>  1.2.1 語義 Web 的提出</p><p>  語義網(wǎng)最早是在1968年由奎連(MR.Qu

49、illian)作為人類聯(lián)想記憶的一個(gè)顯示心理學(xué)</p><p>  模型提出的,1973年西蒙(R.F.Simon)研究小組將語義網(wǎng)絡(luò)用來表達(dá)自然語言理解。</p><p>  而現(xiàn)代意義上的語義網(wǎng)則是被稱為互聯(lián)網(wǎng)之父的泊納斯。李(Tim.Berners-Lee)以及</p><p>  Web和W3C(World Wide Web Consortium)的始創(chuàng)者提

50、出的稱作“Semantic Web”的新</p><p>  一代網(wǎng)絡(luò),其基本思想就是通過在Web信息的創(chuàng)作和發(fā)布中嵌入機(jī)器可閱讀的、代表某</p><p>  類知識的標(biāo)注,使Web上的數(shù)據(jù)不僅能夠被機(jī)器用于顯示,而且能夠被機(jī)器所理解,從</p><p>  而提高信息服務(wù)的質(zhì)量,并開拓各種嶄新的、智能化的信息服務(wù)。如果進(jìn)一步將這些體</p><

51、;p>  現(xiàn)了數(shù)據(jù)與應(yīng)用之間聯(lián)系的知識以對用戶透明的方式嵌入各種不同的信息源,則Web頁</p><p>  面、數(shù)據(jù)庫、程序、模塊和感應(yīng)設(shè)備將通過能夠處理這種信息表示方法的agent連接起來,</p><p>  相互之間能夠理解和協(xié)作[6]。從概念定義的角度來說,伯納斯.李對語義網(wǎng)做了如下的描</p><p>  述[7]:語義萬維網(wǎng)并不是一個(gè)孤立的萬維網(wǎng)

52、,而是對當(dāng)前萬維網(wǎng)上的信息具有定義良好</p><p>  的含義,使得計(jì)算機(jī)之間以及與人類能夠更好地彼此合作。W3C對語義網(wǎng)的定義是[8]:</p><p>  語義Web是互聯(lián)網(wǎng)上數(shù)據(jù)的表達(dá),是當(dāng)前互聯(lián)網(wǎng)的延伸,因?yàn)樾畔⒂星逦髁说暮x,</p><p>  使得人與計(jì)算機(jī)能夠更好地合作。實(shí)際上我們現(xiàn)在所談的語義網(wǎng),并沒有一個(gè)嚴(yán)格的定</p>&l

53、t;p>  義,而是將當(dāng)前的Web網(wǎng)絡(luò)理解為一種語法、句法(Syntactic)網(wǎng),語義網(wǎng)概念思想的</p><p>  出現(xiàn)則是在這一層次關(guān)系上的遞進(jìn)。就目前網(wǎng)絡(luò)而言,它所覆蓋的大部分功能僅僅是將</p><p>  我們輸入的信息按照某種格式顯示出來,因此有人將其稱為是一系列超媒體、數(shù)字資源</p><p>  庫及應(yīng)用平臺,再加上一些相關(guān)的命名序列[9]

54、。這種網(wǎng)絡(luò)所能做的工作就是顯示信息,</p><p>  這對于機(jī)器而言是簡單的,而我們在利用的過程中則要做聯(lián)系與解釋這些很難的工作,</p><p>  語義網(wǎng)思想出現(xiàn)的目的就是要讓計(jì)算機(jī)能夠“理解和處理”現(xiàn)在的Web上僅僅能顯示的</p><p>  數(shù)據(jù),并為人們提供各種智能服務(wù)[10]。</p><p>  從語義萬維網(wǎng)的發(fā)展起源來看

55、,語義網(wǎng)是人工智能領(lǐng)域和Web技術(shù)相互結(jié)合的產(chǎn)</p><p>  物。人工智能中的知識過程研究不斷加深對知識表示和推理的認(rèn)識,并總結(jié)出了一些新</p><p>  的描述和推理方法。而萬維網(wǎng)經(jīng)過十幾年的發(fā)展,不斷積累的海量數(shù)據(jù)和近乎‘爆炸’</p><p>  的信息需要一種新的、機(jī)器可以自動完成的方式來處理和管理?!八?,當(dāng)兩個(gè)領(lǐng)域的</p>&l

56、t;p><b>  3</b></p><p><b>  第一章 緒論</b></p><p>  積累都比較成熟,而且有了需求,就必然會走向結(jié)合”[11]。基于這樣的分析,語義網(wǎng)建</p><p>  立的基礎(chǔ)是知識的概念化和形式化以及相應(yīng)的推理,它和人工智能有著深厚的淵源關(guān)</p><p&g

57、t;  系。因此,許多分析都需要從人工智能領(lǐng)域的角度來考察,尤其是在應(yīng)用層面上考慮檢</p><p>  索代理的智能化處理。</p><p>  1.2.2 語義 Web 的目標(biāo)和特征</p><p>  語義網(wǎng)來源于人工智能,并且得益于數(shù)據(jù)挖掘、自然語言處理等很多相關(guān)領(lǐng)域的研</p><p>  究,雖然因此它們在功能和部分內(nèi)容形式上具有

58、很多相似之處,但因?yàn)楦髯缘膽?yīng)用環(huán)境</p><p>  不同,它們之間也就自然存在著許多顯著的差異。我們可以在區(qū)別一些相關(guān)領(lǐng)域概念的</p><p>  基礎(chǔ)之上歸納語義網(wǎng)的目標(biāo)和特征。</p><p> ?。?)與人工智能的區(qū)別[12];從人工智能的邏輯學(xué)派和認(rèn)知學(xué)派的觀點(diǎn)來看,知識</p><p>  與概念化是人工智能的核心。傳統(tǒng)的人工

59、智能系統(tǒng),要求共同遵守一些公共概念的完全</p><p>  一致的定義,并且一般都有它們各自狹義的、特有的用于信息推理的規(guī)則集合。盡管數(shù)</p><p>  據(jù)能夠從一個(gè)系統(tǒng)轉(zhuǎn)換到另一系統(tǒng),但由于系統(tǒng)間的推理規(guī)則通常以完全不同的形式存</p><p>  在,從而致使一個(gè)系統(tǒng)的規(guī)則不能用于其他系統(tǒng)。從這一點(diǎn)上來看,傳統(tǒng)的人工智能是</p><p

60、>  一種集中、孤立的系統(tǒng)。同樣,語義萬維網(wǎng)也是以知識的概念化表示為基礎(chǔ)展開的。語</p><p>  義萬維網(wǎng)中的知識,就是通過一系列標(biāo)準(zhǔn)和工具對資源的建模及描述。資源,是一個(gè)非</p><p>  常廣泛的概念,它可以是網(wǎng)站、網(wǎng)頁甚至網(wǎng)頁的某一個(gè)部分的內(nèi)容。這種描述采用某種</p><p>  形式的符號和表達(dá)式,對Web上與該資源相關(guān)的其它資源,以及這些

61、資源之間的關(guān)系進(jìn)</p><p>  行刻畫。但是,和傳統(tǒng)的人工智能系統(tǒng)不同,語義萬維網(wǎng)的知識表示的特殊性在于,它</p><p>  本身要符合Web的分散性和通用性。知識的表示本身可能是由眾多的獨(dú)立團(tuán)體或個(gè)人,</p><p>  以各種各樣的方式來提供,而這些知識卻又要求能夠被各種各樣的應(yīng)用實(shí)現(xiàn)共同理解,</p><p>  并且在一定

62、的邏輯規(guī)則指導(dǎo)下進(jìn)行推理。所以語義Web上的知識具有創(chuàng)建上的分散性,</p><p>  同時(shí)又具有應(yīng)用上的通用性。這是語義Web和傳統(tǒng)的人工智能系統(tǒng)一個(gè)非常重要的區(qū)</p><p><b>  別。</b></p><p> ?。?)與自然語言理解的區(qū)別[13];雖然語義網(wǎng)的飛躍發(fā)展在很大程度上得益于與自</p><p&g

63、t;  然語言處理同步研究的機(jī)器翻譯,但兩者最大的不同在于自然語言處理關(guān)心的是人的語</p><p>  言,而語義網(wǎng)則是要設(shè)計(jì)實(shí)現(xiàn)機(jī)器自己所能理解含義的交流工具。可以認(rèn)為兩者在應(yīng)用</p><p>  性研究上有交叉,但研究對象卻是有著顯著區(qū)別的。并且語義網(wǎng)在機(jī)器翻譯中的突出表</p><p>  現(xiàn)僅僅是人們所直接接觸的應(yīng)用之一,不能將其定位在機(jī)器翻譯這一領(lǐng)域之

64、中。</p><p>  通過與這些密切相關(guān)領(lǐng)域概念和功能的區(qū)分,可以對語義網(wǎng)的功能目標(biāo)和環(huán)境特征</p><p>  作以簡單歸納;語義網(wǎng)的目標(biāo)是應(yīng)用有效的標(biāo)準(zhǔn)和技術(shù)使得計(jì)算機(jī)更多地理解網(wǎng)上的信</p><p>  息,從而進(jìn)行知識發(fā)現(xiàn)、數(shù)據(jù)集成、信息導(dǎo)航等。從目前發(fā)展來看,語義網(wǎng)可以被看作</p><p>  是“未來萬維網(wǎng)的雛形”,它所

65、描述的信息具有明確的含義,從而使的計(jì)算機(jī)集成萬維</p><p>  網(wǎng)上的信息并進(jìn)行自動處理變得更為容易。語義網(wǎng)可以提供手段將特定的信息添加到網(wǎng)</p><p>  上,并以此為基礎(chǔ)進(jìn)行知識發(fā)現(xiàn)和關(guān)聯(lián),它還提供了聲明可信賴的方式和手段。通過這</p><p><b>  4</b></p><p><b> 

66、 第一章 緒論</b></p><p>  些,我們可以發(fā)現(xiàn),語義網(wǎng)的環(huán)境特征包括[14]:</p><p>  (1)所有的資源都能用URI(Uniform Resource Identifier)來標(biāo)識;</p><p> ?。?)資源與鏈接可以有類型;</p><p> ?。?)部分、片段、不完整的信息是容許的;</p

67、><p> ?。?)信息不必是絕對真實(shí)的;</p><p>  (5)能支持、反映信息的變化與演化;</p><p> ?。?)最小設(shè)計(jì)原則。</p><p>  1.3 相關(guān)領(lǐng)域的研究現(xiàn)狀</p><p>  國內(nèi)目前在語義Web方面的研究現(xiàn)狀是:基礎(chǔ)研究多,應(yīng)用研究少;跟蹤研究多,</p><p&g

68、t;  創(chuàng)新研究少;《語義信息模型及應(yīng)用》和《語義網(wǎng)簡明教程》兩書是國內(nèi)出現(xiàn)最早的相</p><p>  關(guān)研究教材,但由于近兩年來相關(guān)標(biāo)準(zhǔn)的更新和實(shí)用開發(fā)技術(shù)的出現(xiàn),其結(jié)構(gòu)思路也已</p><p>  經(jīng)不能夠完全適合語義Web發(fā)展的思想。國家自然科學(xué)基金前年啟動了一個(gè)重大項(xiàng)目</p><p>  “非規(guī)范知識的基本理論及核心技術(shù)研究”,有七個(gè)子課題,很多學(xué)校和單

69、位都參與其</p><p>  中,目前在上海交大、浙江大學(xué)、武漢大學(xué)、清華、北大、中國農(nóng)業(yè)大學(xué)等國內(nèi)高校都</p><p>  有很多專家及項(xiàng)目小組從事這一方面的研究,與此課題相關(guān)的多數(shù)實(shí)踐研究都處于外文</p><p>  文獻(xiàn)閱讀及實(shí)用工具試用分析過程中。當(dāng)前對于語義Web的研究仍舊集中在特定領(lǐng)域本</p><p>  體構(gòu)造及分析過程

70、中,這一方面是因?yàn)檎Z義Web體系結(jié)構(gòu)的上層還正在構(gòu)建中,另一方</p><p>  面也在于本體是語義Web的核心,是構(gòu)筑語義網(wǎng)絡(luò)信息實(shí)體應(yīng)用的基礎(chǔ)。</p><p>  本體相似度的量化計(jì)算方法,現(xiàn)有兩種途徑[15]:其一是基于本體庫,利用同義詞詞</p><p>  典(Thesaurus)等計(jì)算相似度,Princiton 大學(xué)的 WordNet 就是一部樹狀的

71、英語語義詞典。</p><p>  樹狀圖上兩片樹葉的距離就是這兩個(gè)概念的語義距離,由語義距離可近一步得到本體相</p><p>  似度。其二是基于大規(guī)模的本體庫統(tǒng)計(jì)信息,利用詞語的相關(guān)性來計(jì)算相似度。通常選</p><p>  取一組特征詞,利用在實(shí)際大規(guī)模本體庫中上下文的出現(xiàn)頻率得到相關(guān)性的特征向量,</p><p>  用向量的夾角余

72、弦來計(jì)算相似度。</p><p>  本體位于從文檔描述到知識推理轉(zhuǎn)折的層次,本體的構(gòu)建是實(shí)現(xiàn)語義Web的關(guān)鍵環(huán)</p><p>  節(jié)[16]。國內(nèi)關(guān)于ontology的研究比較廣泛且較深入,相關(guān)論文[17,18 ,19]也較多,大多是在對</p><p>  ontology的定義[20,21]、基本含義以及本體語言進(jìn)行簡要介紹的基礎(chǔ)上,就Ontology在相關(guān)

73、</p><p>  學(xué)科領(lǐng)域的影響、應(yīng)用及其構(gòu)造進(jìn)行探討[22,23 ,24]與論述。討論相對較多的主要有本體論</p><p>  與信息檢索、本體論與數(shù)字圖書館、本體論與信息管理,此外還包括知識庫系統(tǒng)、數(shù)據(jù)</p><p>  挖掘、機(jī)器翻譯、需求分析等[24,25 ,26]。</p><p>  1.4 研究的主要問題</p&g

74、t;<p>  本課題研究的主要內(nèi)容就是結(jié)合Rough理論,利用其發(fā)現(xiàn)屬性間的依賴關(guān)系、約簡</p><p><b>  5</b></p><p><b>  第一章 緒論</b></p><p>  冗余屬性與對象,確定屬性的權(quán)重,從語義角度來計(jì)算領(lǐng)域本體的相似度,主要包括領(lǐng)</p><

75、;p>  域本體構(gòu)建、信息資源收集等,最后提出基于Rough集的本體相似性度量算法。重點(diǎn)放</p><p>  在領(lǐng)域本體的構(gòu)建和相似性度量上。</p><p><b>  1.5 主要?jiǎng)?chuàng)新點(diǎn)</b></p><p>  本文在以下兩個(gè)方面有所創(chuàng)新:</p><p>  一是提出了結(jié)合Rough理論中的方法來度量本

76、體的相似度。主要是利用Rough理論</p><p>  來發(fā)現(xiàn)屬性間的依賴關(guān)系,進(jìn)行屬性約簡,度量屬性間的重要度,以此來確定每個(gè)屬性</p><p>  的權(quán)重值,克服已有方法中對屬性權(quán)重值系數(shù)的人為確定的隨意性。</p><p>  二是設(shè)計(jì)了一個(gè)以O(shè)WL作為本體描述語言,采用Rough理論方法進(jìn)行度量的本體相</p><p>  似度計(jì)

77、算系統(tǒng),并實(shí)現(xiàn)了實(shí)驗(yàn)原型。通過該系統(tǒng)的應(yīng)用效果定量分析,驗(yàn)證了基于Rough</p><p>  的本體相似性研究的效果和性能。</p><p><b>  1.6 各章節(jié)安排</b></p><p>  全文共由六章組成。緒論部分扼要闡述了課題研究的目的和意義,通過分析相關(guān)領(lǐng)</p><p>  域研究現(xiàn)狀,提出了課題

78、要解決的關(guān)鍵問題,最后介紹了主要?jiǎng)?chuàng)新點(diǎn)。</p><p>  第二章介紹本體的分類、描述語言,以及如何用描述邏輯語言描述領(lǐng)域問題。</p><p>  第三章主要介紹了Rough集理論中的屬性約簡理論。概述了Rough集的基本概念,</p><p>  重點(diǎn)介紹屬性約簡的基礎(chǔ)知識,分析了現(xiàn)有的屬性約簡理論。</p><p>  第四章介紹了現(xiàn)

79、有的本體相似度計(jì)算方法,提出了基于二進(jìn)制的差別矩陣屬性約簡</p><p>  算法和基于Rough集的本體相似度計(jì)算算法,為基于Rough集的本體相似度度量系統(tǒng)的</p><p>  順利實(shí)施奠定了基礎(chǔ)。</p><p>  第五章介紹了主要開發(fā)工具,并構(gòu)建了一個(gè)旅游本體,設(shè)計(jì)實(shí)現(xiàn)了基于Rough集的</p><p>  本體相似度度量系統(tǒng)

80、,并且通過試驗(yàn)系統(tǒng)驗(yàn)證了該方案的實(shí)踐上的正確性和可行性。</p><p>  第六章給出了本課題研究的主要結(jié)論,并探討了進(jìn)一步研究的方向。</p><p><b>  6</b></p><p>  第二章 語義 Web 及本體</p><p>  第二章 語義 Web 及本體</p><p> 

81、 2.1 語義 Web 體系結(jié)構(gòu)</p><p>  在XML 2000會議上,Tim Berners-Lee首次給出了語義Web基本構(gòu)架[29],它是個(gè)功</p><p>  能逐層增強(qiáng)的層次化結(jié)構(gòu),如圖2-1。2001年2月W3C組織正式推出Semantic Web Activity,</p><p>  它成為推動語義網(wǎng)研究和發(fā)展的主要力量。</p>

82、;<p>  圖 2-1 語義網(wǎng)體系結(jié)構(gòu)圖</p><p><b>  Fig2-1</b></p><p>  Structure Graph of Semantic Web</p><p>  第一層:Unicode和URI。Unicode是一個(gè)字符集,這個(gè)字符集中所有字符都用兩個(gè)</p><p>  

83、字節(jié)表示,可以表示65536個(gè)字符,基本上包括了世界上所有語言的字符。數(shù)據(jù)格式采</p><p>  用Unicode的好處就是它支持世界上所有主要語言的混合,并且可以同時(shí)進(jìn)行檢索。</p><p>  URI(Uniform Resource Identifier),即統(tǒng)一資源定位符,用于唯一標(biāo)識網(wǎng)絡(luò)上的一個(gè)概念</p><p>  或資源。在語義網(wǎng)體系結(jié)構(gòu)中,該

84、層是整個(gè)語義網(wǎng)的基礎(chǔ),其中Unicode負(fù)責(zé)處理資源</p><p>  的編碼,URI負(fù)責(zé)資源的標(biāo)識[27]。</p><p>  第二層:XML+NS+xmlschema。 XML是一個(gè)精簡的SGML,它綜合了SGML的豐</p><p>  富功能與HTML的易用性,它允許用戶在文檔中加入任意的結(jié)構(gòu),而無需說明這些結(jié)構(gòu)</p><p>

85、  的含意。NS(Name Space)即命名空間,由URI索引確定,目的是為了避免不同的應(yīng)用使</p><p>  用同樣的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品,它</p><p>  本身采用XML語法,但比DTD更加靈活,提供更多的數(shù)據(jù)類型,能更好地為有效的XML</p><p>  文檔服務(wù)并提供數(shù)

86、據(jù)校驗(yàn)機(jī)制。正是由于XML靈活的結(jié)構(gòu)性、由URI索引的NS而帶來的</p><p>  數(shù)據(jù)可確定性以及XML Schema所提供的多種數(shù)據(jù)類型及檢驗(yàn)機(jī)制,使其成為語義網(wǎng)體</p><p>  系結(jié)構(gòu)的重要組成部分。該層負(fù)責(zé)從語法上表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu),通過使用標(biāo)準(zhǔn)的語</p><p>  言將網(wǎng)絡(luò)信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分離[28]。</p>

87、<p><b>  7</b></p><p>  第二章 語義 Web 及本體</p><p>  第三層:RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目</p><p>  標(biāo)是建立一種供多種元數(shù)據(jù)標(biāo)準(zhǔn)共存的框架。該框架能充分利用各種元數(shù)據(jù)的優(yōu)勢,進(jìn)</p><p>  行基

88、于Web 的數(shù)據(jù)交換和再利用。RDF解決的是如何采用XML標(biāo)準(zhǔn)語法無二義性地描</p><p>  述資源對象的問題,使得所描述的資源的元數(shù)據(jù)信息成為機(jī)器可理解的信息。如果把</p><p>  XML看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語法規(guī)范的話,那么RDF就可以看作為一種標(biāo)準(zhǔn)化的元</p><p>  數(shù)據(jù)語義描述規(guī)范。Rdfschema使用一種機(jī)器可以理解的體系來定義描

89、述資源的詞匯,</p><p>  其目的是提供詞匯嵌入的機(jī)制或框架,在該框架下多種詞匯可以集成在一起實(shí)現(xiàn)對Web</p><p><b>  資源的描述。</b></p><p>  第四層:Ontology vocabulary。該層是在RDF(S)基礎(chǔ)上定義的概念及其關(guān)系的抽象</p><p>  描述,用于描述應(yīng)

90、用領(lǐng)域的知識[32],描述各類資源及資源之間的關(guān)系,實(shí)現(xiàn)對詞匯表的</p><p>  擴(kuò)展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關(guān)系[30]。</p><p>  第五至七層:Logic、Proof、Trust。Logic負(fù)責(zé)提供公理和推理規(guī)則,而Logic一旦</p><p>  建立,便可以通過邏輯推理對資源、資源之間的關(guān)系以及推理結(jié)果進(jìn)行

91、驗(yàn)證,證明其有</p><p>  效性。通過Proof交換以及數(shù)字簽名,建立一定的信任關(guān)系,從而證明語義網(wǎng)輸出的可靠</p><p>  性以及其是否符合用戶的要求。</p><p>  2.2 本體的定義和分類</p><p>  2.2.1 本體的定義</p><p>  在計(jì)算機(jī)界,明確本體的定義經(jīng)歷了一個(gè)過程

92、。1993年,Gruber給出了本體的一個(gè)</p><p>  最為流行的定義,即“本體是概念模型的明確的規(guī)范說明”</p><p><b>  [31]</b></p><p>  修改,提出:“本體是共享模型的形式化規(guī)范說明”。Studer等對上述兩個(gè)定義進(jìn)行了</p><p>  深入的研究,認(rèn)為本體是共享概念模型

93、的明確的形式化規(guī)范說明。這個(gè)定義包含4層含</p><p>  義:概念化(Conceptualization)、明確(Explicit)、形式化(Formal)和共享(Share)</p><p><b>  [32]</b></p><p>  “概念化”指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到概述模型,即概念</p>

94、<p>  系統(tǒng)所蘊(yùn)涵的語義結(jié)構(gòu),是對某一事實(shí)結(jié)構(gòu)的一組非正式的約束規(guī)則,可以理解和表達(dá)</p><p>  為一組概念(如實(shí)體、屬性、過程)、定義和關(guān)系。</p><p>  “明確”指所使用的概念及使用這些概念的約束都有明確的定義。</p><p>  “形式化”指本體中體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,</p>&

95、lt;p>  即本體針對的是社會范疇而非個(gè)體之間的共識。</p><p>  除上述定義外,不少文獻(xiàn)從不同的問題域和研究角度出發(fā),對本體又給出了各種各</p><p>  樣的定義。總而言之,本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域</p><p>  知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這</p&g

96、t;<p>  些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義。</p><p><b>  8</b></p><p>  第二章 語義 Web 及本體</p><p>  本體的研究與應(yīng)用主要包括3個(gè)方面[33]:(1)理論上的研究,主要研究概念及其分</p><p>  類、本體上的代數(shù);(2)在信息系統(tǒng)中

97、的應(yīng)用,主要包括處理信息組織、信息檢索和</p><p>  異構(gòu)信息系統(tǒng)互操作問題;(3)本體作為一種能在知識層提供知識共享和重用的工具</p><p>  在語義Web中的應(yīng)用。</p><p>  2.2.2 本體的分類</p><p>  對不同的研究者,本體可以是一個(gè)邏輯理論、一個(gè)形式化語義記錄、邏輯理論詞匯、</p>

98、<p>  或概念化規(guī)約,但是依然可以看出,這些定義有著共同的目標(biāo),它們都是捕獲相關(guān)領(lǐng)域</p><p>  的知識,提供對該知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形</p><p>  式化模式上給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義[34]。根據(jù)本體不同方</p><p>  面的屬性(如形式化程度和描述的對象)可以對本

99、體進(jìn)行不同的分類[35]。</p><p>  根據(jù)本體的形式化程度不同,可以把本體分為:</p><p>  高度非形式化的(high-informal) 用自然語言自由隨意地表達(dá);</p><p>  結(jié)構(gòu)非形式化的(structured-informal) 用受限定的結(jié)構(gòu)式自然語言表達(dá)。</p><p>  半形式化的(semi-for

100、mal) 用人工定義的形式語言表達(dá);</p><p>  嚴(yán)格形式化的(rigorously formal) 用屬性的形式語義、定理和證明嚴(yán)格、仔細(xì)地</p><p>  定義術(shù)語。并使之具有正確性和完整性。</p><p>  根據(jù)本體的描述對象不同,可以把本體分為特殊領(lǐng)域本體(如醫(yī)藥、地理、金融等)、</p><p>  一般世界知識本體

101、、問題求解本體和知識表示語言本體。</p><p>  Guarino提出以詳細(xì)程度和領(lǐng)域依賴度作為本體的劃分基礎(chǔ)[36],詳細(xì)程度是指描述</p><p>  或刻畫建模對象的程度,它是一個(gè)相對的較模糊的概念。詳細(xì)程度高的本體稱為參考本</p><p>  體,詳細(xì)程度低的本體稱為共享本體。依照領(lǐng)域依賴程度可以分為頂級本體、領(lǐng)域本體、</p><

102、;p>  任務(wù)本體和應(yīng)用本體四類,其中:(1)頂級本體:描述的是最普通的概念及概念之間</p><p>  的關(guān)系,如空間、時(shí)間、事件等,與具體的應(yīng)用無關(guān)。其它種類的本體都是該類本體的</p><p>  特例。(2)領(lǐng)域本體:描述的是特定領(lǐng)域(醫(yī)藥、地理等)中的概念及概念之間的關(guān)</p><p>  系。(3)任務(wù)本體:描述的是特定任務(wù)和行為中的概念及概念之

103、間的關(guān)系。(4)應(yīng)用</p><p>  本體:描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。</p><p>  1999年P(guān)erez和Ben jamins在分析和研究了各種本體的分類法的基礎(chǔ)上歸納出10種本</p><p>  體[40]:知識表示本體、普通本體、頂級本體、元本體、領(lǐng)域本體、語言本體、任務(wù)本體、</p><p>  

104、領(lǐng)域-任務(wù)本體、方法本體和應(yīng)用本體。該分類方法是對Guarino所提出分類方法的擴(kuò)充</p><p>  和細(xì)化。但這10種本體之間有交叉,層次不夠清晰。</p><p><b>  2.3 本體的建模</b></p><p>  對于本體的具體構(gòu)造過程,可以用下面的公式形象地給出:</p><p>  本體=概念(Co

105、ncept)+屬性(Property)+公理(Axiom)+取值(Value)+名義(Nominal)[10]</p><p><b>  9</b></p><p>  第二章 語義 Web 及本體</p><p>  概念可分成“原始概念(Primitive concept)”(屬性是必要條件,而非充要條件的</p><

106、p>  情況)和“定義概念(Defined concepts)”(屬性是充分必要條件的情況)兩種。屬性則是</p><p>  對概念特征或性質(zhì)的描述。例如:“人是哺乳動物”是簡單概念,“素?cái)?shù)是只能被1和</p><p>  自身整除的正整數(shù)”則是定義概念。至于“公理”,即是定義在“概念”和“屬性”上</p><p>  的限定和規(guī)則。“取值”則是具體的賦值,

107、“名義”是無實(shí)例的概念或者是用在概念定</p><p><b>  義中的實(shí)例。</b></p><p>  從語義上分析,實(shí)例表示的就是對象,而概念表示的則是對象的集合,關(guān)系對應(yīng)于</p><p>  對象元組的集合。概念的定義一般采用框架結(jié)構(gòu),包括概念的名稱,與其他概念之間關(guān)</p><p>  系的集合,以及用自然

108、語言對該概念的描述?;镜年P(guān)系有四種:part-of ,kind-of,</p><p>  instance-of和attribute-of。part-of表達(dá)概念之間部分與整體的關(guān)系,kind-of表達(dá)概念之間</p><p>  的繼承關(guān)系,instance-of表達(dá)概念的實(shí)例和概念之間的關(guān)系,attribute-of表達(dá)某個(gè)概念是</p><p>  另外一

109、個(gè)概念的屬性。如圖2-2用一個(gè)簡單的有向圖來表示一個(gè)簡單的運(yùn)輸本體。</p><p><b>  圖 2-2</b></p><p><b>  運(yùn)輸本體</b></p><p><b>  Fig2-2</b></p><p>  Ontology of Transport&

110、lt;/p><p>  Perez等人用分類法組織本體,歸納出5個(gè)基本建模原語來形式化表示本體[37]:</p><p>  類(classer)或概念(concepts):指任何事務(wù),如任務(wù)、功能、行為、策略和推理過程。從</p><p>  語義上講,它表示的是對象的集合,其定義一般采用框架(frame)結(jié)構(gòu),包括概念的</p><p>  

111、名稱,與其它概念之間的關(guān)系的集合,以及用自然語言對概念的描述。</p><p>  關(guān)系(relations):在領(lǐng)域中概念之間的交互作用,形式上定義為n維笛卡兒積的子集:</p><p>  R:C1*C2*…*Cn.如子類關(guān)系(subclass-of)。在語義上關(guān)系對應(yīng)于對象元組的集合。</p><p>  函數(shù)(functions):一類特殊的關(guān)系。該關(guān)系的前

112、n-1個(gè)元素可以唯一決定第n個(gè)元素。</p><p><b>  10</b></p><p>  第二章 語義 Web 及本體</p><p>  形式化的定義為F:C1*C2*…*Cn-1->Cn。如Price-of-a-used-car就是一個(gè)函數(shù),是根據(jù)車</p><p>  型、制造日期、行駛路程計(jì)算的二

113、手車的價(jià)格。</p><p>  公理(axioms):代表永真斷言,如概念乙屬于概念甲的范圍。</p><p>  實(shí)例(instances):代表元素。從語義上將實(shí)例表示的就是對象。</p><p>  在實(shí)際建模過程中,可以根據(jù)具體的需要定義概念之間的關(guān)系,并不局限于前面所</p><p>  述的4種。一般來說,在構(gòu)造一個(gè)本體時(shí)需要經(jīng)

114、過以下幾步:</p><p>  確定本體領(lǐng)域和范圍。對具體研究領(lǐng)域建立相應(yīng)的本體,領(lǐng)域越大,所建本體就越</p><p>  大,因此需要限制研究的范圍;</p><p>  可以考慮復(fù)用現(xiàn)有的本體。如果所研究的領(lǐng)域需要用到其它領(lǐng)域的知識,那么直接</p><p>  復(fù)用已有的本體,可以提高資源的利用率;</p><p

115、>  列舉出本體中的重要術(shù)語。把所研究領(lǐng)域的各個(gè)實(shí)體對象及其屬性、關(guān)系等用術(shù)語</p><p><b>  表示出來;</b></p><p>  定義類和類層次。類定義是指一個(gè)類的描述,其中包括類型定義,相關(guān)子類的定義</p><p>  等。在定義類層次時(shí)可以用三中不同的方法:(1)、先定義最全面的概念然后再對概</p>

116、<p>  念進(jìn)行細(xì)化,即按自頂向下的方向來進(jìn)行;(2)、先定義最具體的概念,然后再把具</p><p>  體概念組合成最具概括性的概念,即按自底向上的方向來進(jìn)行;(3)把上述兩種想結(jié)</p><p>  合,即按自頂向下和自底向上的兩個(gè)方向同時(shí)進(jìn)行。</p><p>  定義類的屬性。對類進(jìn)行定義時(shí),可以同時(shí)定義類的屬性。比較常用的屬性類型有<

117、/p><p>  字符型、數(shù)值型、布爾型和枚舉型。</p><p>  定義槽的約束。一個(gè)槽可以有許多面。它們分別來描述值的大小、值的類型、值的</p><p><b>  范圍、值的維度等。</b></p><p>  生成實(shí)例。定義一個(gè)類所需要的單個(gè)實(shí)例,這個(gè)過程需要三步,即(1)選擇一個(gè)</p><

118、p>  類;(2)生成類的單個(gè)實(shí)例;(3)填充槽的值。</p><p>  Grulzer于1995年在文獻(xiàn)[38]中提出本體發(fā)展過程中構(gòu)建本體的標(biāo)準(zhǔn)和原則:清晰性</p><p>  (clarity)、明確性和客觀性,完全性(Completenese),一致性(Coherence),最大單調(diào)擴(kuò)展</p><p>  性(Extendibility),最小承

119、諾(Minimal ontological commitment)和最小編碼偏好(Minimal</p><p>  encoding bias)。</p><p>  5條準(zhǔn)則給出了構(gòu)造本體的基本思路和框架,在遵循上述規(guī)則的基礎(chǔ)上,人們創(chuàng)建</p><p>  了許多的本體。Mariano在研究了現(xiàn)有各類構(gòu)建本體的方法的基礎(chǔ)上,歸納出目前5種比</p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論