版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p><b> 華東交通大學(xué)</b></p><p><b> 碩士學(xué)位論文</b></p><p> 基于ROUGH集理論的本體相似性技術(shù)研究</p><p><b> 姓名:陳(王樂)</b></p><p><b> 申請學(xué)位級別:碩士&l
2、t;/b></p><p> 專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)</p><p><b> 指導(dǎo)教師:黃兆華</b></p><p><b> 20080418</b></p><p><b> 摘要</b></p><p> 基于 Rough 集理論
3、的本體相似性技術(shù)研究</p><p><b> 摘要</b></p><p> 本體最初是一個(gè)哲學(xué)概念,用來描述事物的本質(zhì),本體是概念、屬性和關(guān)系的集合。</p><p> 它除了應(yīng)用于語義 Web 的信息表示之外,還被廣泛地應(yīng)用于智能信息集成、協(xié)作信息</p><p> 系統(tǒng)、信息檢索、電子商務(wù)和知識管理等領(lǐng)域
4、。</p><p> 本體的應(yīng)用領(lǐng)域越來越多,其應(yīng)用的主要目的是為了知識的共享和重用。由于本體</p><p> 自身的分散性,不同的用戶可以構(gòu)造不同的本體。要想實(shí)現(xiàn)不同本體間的互操作就必須</p><p> 解決本體間的異構(gòu)問題,一般都用本體的映射來解決本體間的異構(gòu)問題。相似性提取是</p><p> 本體映射的一個(gè)重要步驟,它主要
5、是進(jìn)行相似度的計(jì)算。</p><p> 本體相似度的計(jì)算廣泛應(yīng)用于信息檢索、機(jī)器翻譯、自動問答系統(tǒng)等領(lǐng)域,是一個(gè)</p><p> 非?;A(chǔ)而關(guān)鍵的問題,長期以來一直是人們研究的熱點(diǎn)和難點(diǎn)。由于各個(gè)本體提供者</p><p> 的信息源是異構(gòu)分布自治的,因此在構(gòu)建共享平臺的過程中,重點(diǎn)要解決的就是這些數(shù)</p><p> 據(jù)源之間的本
6、體異構(gòu)問題。本體異構(gòu)包括由不一致數(shù)據(jù)和對相同數(shù)據(jù)的多個(gè)解釋造成的</p><p> 數(shù)據(jù)級異構(gòu)和由數(shù)據(jù)的邏輯組織不相似所造成的模式級異構(gòu)。本文通過本體相似度計(jì)算</p><p> 技術(shù)來解決本體異構(gòu)問題,難點(diǎn)在于本體的屬性繁多,本體間關(guān)系復(fù)雜。</p><p> 本文研究了本體理論和 Rough 集理論,重點(diǎn)介紹了 Rough 集理論中的屬性約簡。</p
7、><p> 通過對 Rough 集理論和本體的研究,在理論上確立了基于 Rough 集理論的本體相似性</p><p> 技術(shù)研究的方案,改進(jìn)了現(xiàn)有的基于屬性的本體相似性度量方法,使用了一種基于二進(jìn)</p><p> 制的屬性約簡方法來減少工作量。提出了 RSONSA 算法用于計(jì)算本體相似度。系統(tǒng)采</p><p> 用七步法構(gòu)建旅游領(lǐng)域
8、本體,實(shí)現(xiàn)了實(shí)驗(yàn)原型,通過對系統(tǒng)應(yīng)用效果的定量分析,驗(yàn)證</p><p> 了 RSONSA 算法的效果和性能。</p><p> 關(guān)鍵詞:本體,Rough 集,相似性,屬性約簡</p><p><b> I</b></p><p><b> Abstract</b></p>
9、<p> RESEARCH ON ONTOLOGY SIMILAR TECHNOLOGY</p><p> BASED ON ROUGH SET THEORY</p><p><b> ABSTRACT</b></p><p> Ontology is originally a philosophical concept, u
10、sed to describe the essence of things,</p><p> ontology is a collection of concepts and attributes and relations. Apart from the Semantic Web</p><p> application to express information, it was
11、 also widely used in intelligent information</p><p> integration, collaboration information systems, information retrieval, e-commerce and</p><p> knowledge management, and other fields.</p
12、><p> Areas of Ontology application is more and more, Ontology application is primarily for</p><p> sharing and reusing knowledge. Since the dispersion of their own body, different users can</
13、p><p> construct different Ontology. In order to operate different Ontologies, it must solve the</p><p> problem of heterogeneous between ontologies.we generally used Ontology mapping between<
14、/p><p> heterogeneous ontology to solve the problem. Extraction of Ontology similarity is an</p><p> important step of Ontology mapping, it is mainly the calculation of similarity</p><
15、p> The calculation of Ontology similarity widely used in information retrieval, machine</p><p> translation, and automatic question answering systems, and other fields, it is a very basis and</p>
16、<p> key issue, it has been on the hot and difficult problem for a long time. Since information</p><p> source of provider of the ontology is different, the focus is to resolve ontology heterogeneous
17、</p><p> between the source of data in the process of building shared platform. The difference of</p><p> Ontology construction include data heterogeneous from the inconsistencies of the data
18、and</p><p> some explaination of same data, the pattern heterogeneous from the different of the logic</p><p> organizations of data. The article solves the problem of heterogeneous ontology by
19、 the</p><p> technology of computing Ontology similarity, the difficult issue is that Ontologies have many</p><p> attribute and complex relationship.</p><p> This paper studies
20、the Ontological Theory and Rough Set Theory, the focus is the</p><p> introduction on Rough Set Theory of attribute reduction. Through the research of Rough Set</p><p> Theory and ontology, we
21、 establish programme of Research on Ontology similar technology</p><p> based on Rough Set Ontology and improve the existing Ontology similarity measurement</p><p> method based on properties
22、of Ontology, we use a new method to reduce the workload which</p><p> reduce properties by the use of binary Reduction, and provide RSONSA Algorithm to</p><p> calculate the Ontology similar.
23、The system construct ontology of the field of tourism by a</p><p> seven-step method, achieving an experimental prototype of the system. Through the</p><p> Application of quantitative analysi
24、s, we proved the effect of RSONSA algorithm.</p><p> Keyword: Ontology, Rough Set, Similary, Attribute Reduction</p><p><b> II</b></p><p><b> 獨(dú)創(chuàng)性聲明</b><
25、;/p><p> 本人鄭重聲明:所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的</p><p> 研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已</p><p> 經(jīng)發(fā)表和撰寫的研究成果,也不包含為獲得華東交通大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書</p><p> 所使用過的材料。與我一同工作的同志對本
26、研究所做的任何貢獻(xiàn)均已在論文中作了明確</p><p> 的說明并表示了謝意。</p><p> 本人簽名_______________日期____________</p><p> 關(guān)于論文使用授權(quán)的說明</p><p> 本人完全了解華東交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送</p><p&g
27、t; 交論文的復(fù)印件,允許論文被查閱和借閱。學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以</p><p> 采用影印、縮印或其他復(fù)制手段保存論文。</p><p> 保密的論文在解密后遵守此規(guī)定,本論文無保密內(nèi)容。</p><p> 本人簽名____________導(dǎo)師簽名__________日期___________</p><p>&l
28、t;b> 第一章 緒論</b></p><p><b> 第一章 緒論</b></p><p> 1.1 問題的提出及研究的意義</p><p> 1.1.1 問題的提出</p><p> Internet作為一種分布式開放互連的信息系統(tǒng),從出現(xiàn)的那一刻起,就開始改變?nèi)藗?lt;/p>
29、<p> 獲取信息及應(yīng)用服務(wù)的方式,如信息檢索、電子商務(wù)、遠(yuǎn)程教育、數(shù)字圖書館等。WWW</p><p> 通過一系列標(biāo)實(shí)現(xiàn)不同層次上的信息交互,使用TCP/IP 協(xié)議保證線路傳輸數(shù)據(jù)的準(zhǔn)確</p><p> 性,使用HTTP協(xié)議獲取超文本。從Web技術(shù)發(fā)展過程看,可將Web劃分為三代[1],即</p><p> 第一代(90年代后期至今):以H
30、TML為標(biāo)志,為了展示數(shù)據(jù)內(nèi)容,而不是描述數(shù)</p><p> 據(jù)內(nèi)容本身,其實(shí)現(xiàn)了表現(xiàn)形式與文檔位置的分離。Web只是一個(gè)針對人閱讀的發(fā)布平</p><p> 臺,由一系列的超文本鏈接而成;</p><p> 第二代(90年代后期至今):以XML為標(biāo)志,用戶可以根據(jù)需要制定能夠反映數(shù)據(jù)</p><p> 內(nèi)容的標(biāo)簽,實(shí)現(xiàn)了對文檔的有
31、效管理,即文檔結(jié)構(gòu)與表現(xiàn)形式的分離。XML以及相關(guān)</p><p> 技術(shù)的出現(xiàn)使傳統(tǒng)萬維網(wǎng)上的信息內(nèi)容從面向人瀏覽到面向機(jī)器自動處理邁出了重要</p><p><b> 一步;</b></p><p> 第三代:以RDF(S)、OWL為標(biāo)志,它將實(shí)現(xiàn)文檔含義與文檔結(jié)構(gòu)的分離作為目</p><p> 標(biāo),這種含義
32、可以被共享,并且可以被機(jī)器處理,它將提供諸如信息代理、搜索代理、</p><p> 信息過濾等智能服務(wù),即語義Web。</p><p> 當(dāng)前的第二代Web主要采用靜態(tài)HTML頁面, 或者動態(tài)產(chǎn)生HTML頁面的方式來發(fā)</p><p> 布信息。通常HTML頁面中只包含有格式和內(nèi)容兩方面的信息, 缺少描述內(nèi)容的元數(shù)據(jù)。</p><p>
33、 HTML 語言的這種特點(diǎn)決定了萬維網(wǎng)上信息內(nèi)容很難被機(jī)器所理解, 從而制約了一些</p><p> 需要對萬維網(wǎng)上海量數(shù)據(jù)進(jìn)行自動化處理應(yīng)用的開發(fā)[2]。比如在信息查找方面,高速增</p><p> 長的海量信息一方面為人們提供了大量的信息,另一方面也為準(zhǔn)確找到所需信息設(shè)置了</p><p> 障礙,可能會出現(xiàn)大量冗余信息。究其原因在于,目前Web上的數(shù)據(jù)
34、僅是計(jì)算機(jī)可讀的,</p><p> 搜索引擎仍不能很好的理解人的查詢請求。目前常見的查詢策略是,將用戶的查詢請求</p><p> 分解成若干關(guān)鍵字,根據(jù)這些關(guān)鍵字計(jì)算Web文檔跟用戶請求的匹配程度,從而挑出若</p><p> 干匹配的文檔,簡單的匹配不能解決同名異義和異名同義問題。</p><p> 語義萬維網(wǎng)(Semantic
35、 Web)[3] 正是針對這一問題而提出來的。建立語義Web的目的</p><p> 是為了使計(jì)算機(jī)能夠簡單“理解”分布在網(wǎng)上的內(nèi)容,主動獲取網(wǎng)上的內(nèi)容,在簡單“理解”</p><p> 網(wǎng)上信息的基礎(chǔ)上,更好地處理、利用這些知識。語義Web的基礎(chǔ)是對網(wǎng)上內(nèi)容的描述,</p><p> 它的語義理論基礎(chǔ)是描述邏輯。本體(Ontology)是語義Web描述邏輯的
36、具體實(shí)現(xiàn),它</p><p> 用來描述分布在網(wǎng)上異構(gòu)的內(nèi)容,領(lǐng)域相關(guān)的內(nèi)容可以擁有本領(lǐng)域特殊的本體。在語義</p><p> Web上,任何內(nèi)容都是用本體來描述的。語義Web上每個(gè)文檔都是一個(gè)本體,這些文檔</p><p><b> 1</b></p><p><b> 第一章 緒論</b>
37、;</p><p> 可以構(gòu)造成大的本體,而在這些文檔內(nèi)部,又可以拆分成小的本體。在語義Web中可以</p><p> 用一個(gè)或者一族本體對某個(gè)領(lǐng)域的知識進(jìn)行歸納 ,這稱為領(lǐng)域本體 [4],例如對 Web</p><p> Services進(jìn)行描述的本體等。計(jì)算機(jī)之間通過對本體的理解來交流領(lǐng)域之間的信息;而</p><p> 在領(lǐng)域內(nèi)
38、部,多數(shù)文檔可以采用繼承自領(lǐng)域本體的本體,因此領(lǐng)域內(nèi)部的文檔在形式上</p><p> 非常相似。語義Web使用數(shù)據(jù)規(guī)整,提供語義化的信息內(nèi)容,更多地從規(guī)則和技術(shù)標(biāo)準(zhǔn)</p><p> 上使互聯(lián)網(wǎng)更加有序。</p><p> 最近幾年,本體除應(yīng)用在語義Web上之外,還被廣泛應(yīng)用在知識表示、知識共享、</p><p> 知識集成、知識重
39、用和知識管理等領(lǐng)域中,但卻存在不完全相同的定義和理解。本體的</p><p> 定義有許多種,定義之間的側(cè)重點(diǎn)也各不相同,但本體的本質(zhì)是對共享概念的一個(gè)正規(guī)</p><p> 清晰的描述。在計(jì)算機(jī)領(lǐng)域,本體被定義為共享概念模型的形式化的規(guī)范說明。本體通</p><p> 常包含5個(gè)建模原語:類(Class)、關(guān)系(relation)、函數(shù)(functions)
40、、公理(axioms)</p><p> 和實(shí)例(instances),用這些建模原語可以構(gòu)造和設(shè)計(jì)一個(gè)本體。</p><p> 本體的應(yīng)用領(lǐng)域越來越多,但應(yīng)用的主要目的都是為了知識的共享和重用。由于本</p><p> 體自身的分散性,不同的用戶可以構(gòu)造不同的本體,所以導(dǎo)致了在同一個(gè)或重疊的領(lǐng)域</p><p> 產(chǎn)生了許多個(gè)不同的
41、本體。即使一個(gè)小的背景領(lǐng)域也可能出現(xiàn)許多個(gè)不同的本體,不同</p><p> 的用戶對同一領(lǐng)域所建的本體都可能是不同大的。這些本體間是異構(gòu)的,它們之間不能</p><p> 進(jìn)行互相操作,用戶之間也不能相互理解。因?yàn)楸倔w的構(gòu)造是一個(gè)非常費(fèi)時(shí)費(fèi)力的過程,</p><p> 所以一個(gè)用戶在同一應(yīng)用領(lǐng)域中同時(shí)建立多個(gè)不同的本體是不現(xiàn)實(shí)的。在同一領(lǐng)域內(nèi),</p&
42、gt;<p> 要想實(shí)現(xiàn)不同本體間的互操作就必須解決本體間的異構(gòu)問題。</p><p> 本體的異構(gòu)一般可分為結(jié)構(gòu)異構(gòu)和語義異構(gòu)。結(jié)構(gòu)異構(gòu)是指信息的表示不同,也稱</p><p> 為結(jié)構(gòu)沖突。語義異構(gòu)是指信息的意義不同。為了實(shí)現(xiàn)異構(gòu)本體間的互操作,一般可采</p><p> 用三種方法:(1)本體間建立包含關(guān)系,目標(biāo)本體簡單地包含源本體;(2
43、)本體間建</p><p> 立映射關(guān)系;(3)對本體進(jìn)行合并,生成一個(gè)完整的公共本體。在這三種方法中,方</p><p> 法(1)的缺點(diǎn)是源本體的信息只能被復(fù)用而不能被修改。方法(3)的難度較大,不易</p><p> 實(shí)現(xiàn)。方法(2)比較合適,所以一般都用本體的映射來解決本體間的異構(gòu)問題。本體</p><p> 映射一般分信息本
44、體化、相似性提取、語義映射、映射執(zhí)行和映射后處理過程共五步來</p><p> 進(jìn)行。相似性提取是本體映射的一個(gè)重要步驟,它主要是進(jìn)行相似度的計(jì)算。</p><p> 1.1.2 研究的意義</p><p> 本體最初是一個(gè)哲學(xué)概念,用來描述事物的本質(zhì)[5],本體是概念、屬性和關(guān)系的集</p><p> 合。它除了應(yīng)用于語義Web的信
45、息表示之外,還被廣泛地應(yīng)用于智能信息集成、協(xié)作信</p><p> 息系統(tǒng)、信息檢索、電子商務(wù)和知識管理等領(lǐng)域。由于本體可以描述數(shù)據(jù)的語義,所以</p><p> 在網(wǎng)絡(luò)或傳統(tǒng)數(shù)據(jù)庫中的任何數(shù)據(jù)(或元數(shù)據(jù))都可以用本體來表示,以使不同的團(tuán)體</p><p><b> 可以相互理解。</b></p><p> 應(yīng)用
46、本體的主要目的是為了知識共享和重用。隨著信息的增多,本體的數(shù)量也越來</p><p> 越多,并且單個(gè)本體不能充分完成任務(wù),一次必須聯(lián)合多個(gè)本體來完成任務(wù)。科研人員</p><p><b> 2</b></p><p><b> 第一章 緒論</b></p><p> 提出許多構(gòu)造本體的標(biāo)準(zhǔn)
47、,其中最有影響力的是T.R.Gruber提出的5個(gè)準(zhǔn)則[3]:明確性和</p><p> 客觀性、一致性、完全性、最大單調(diào)可擴(kuò)展性、最小承諾。因?yàn)楸倔w的構(gòu)造還沒有一個(gè)</p><p> 統(tǒng)一的標(biāo)準(zhǔn),所以在同一個(gè)領(lǐng)域內(nèi)產(chǎn)生了大量不同的本體,這些本體是異構(gòu)的。本體異</p><p> 構(gòu)是本體間互操作的主要障礙,解決本體異構(gòu)最好的辦法是本體映射,本體映射的關(guān)鍵&l
48、t;/p><p> 是本體相似度的計(jì)算。只有較好地解決了本體相似度的計(jì)算問題,我們才能夠建立大規(guī)</p><p> 模的知識本體庫,進(jìn)行本體的共享和重用。</p><p> 1.2 語義 Web 概述</p><p> 1.2.1 語義 Web 的提出</p><p> 語義網(wǎng)最早是在1968年由奎連(MR.Qu
49、illian)作為人類聯(lián)想記憶的一個(gè)顯示心理學(xué)</p><p> 模型提出的,1973年西蒙(R.F.Simon)研究小組將語義網(wǎng)絡(luò)用來表達(dá)自然語言理解。</p><p> 而現(xiàn)代意義上的語義網(wǎng)則是被稱為互聯(lián)網(wǎng)之父的泊納斯。李(Tim.Berners-Lee)以及</p><p> Web和W3C(World Wide Web Consortium)的始創(chuàng)者提
50、出的稱作“Semantic Web”的新</p><p> 一代網(wǎng)絡(luò),其基本思想就是通過在Web信息的創(chuàng)作和發(fā)布中嵌入機(jī)器可閱讀的、代表某</p><p> 類知識的標(biāo)注,使Web上的數(shù)據(jù)不僅能夠被機(jī)器用于顯示,而且能夠被機(jī)器所理解,從</p><p> 而提高信息服務(wù)的質(zhì)量,并開拓各種嶄新的、智能化的信息服務(wù)。如果進(jìn)一步將這些體</p><
51、;p> 現(xiàn)了數(shù)據(jù)與應(yīng)用之間聯(lián)系的知識以對用戶透明的方式嵌入各種不同的信息源,則Web頁</p><p> 面、數(shù)據(jù)庫、程序、模塊和感應(yīng)設(shè)備將通過能夠處理這種信息表示方法的agent連接起來,</p><p> 相互之間能夠理解和協(xié)作[6]。從概念定義的角度來說,伯納斯.李對語義網(wǎng)做了如下的描</p><p> 述[7]:語義萬維網(wǎng)并不是一個(gè)孤立的萬維網(wǎng)
52、,而是對當(dāng)前萬維網(wǎng)上的信息具有定義良好</p><p> 的含義,使得計(jì)算機(jī)之間以及與人類能夠更好地彼此合作。W3C對語義網(wǎng)的定義是[8]:</p><p> 語義Web是互聯(lián)網(wǎng)上數(shù)據(jù)的表達(dá),是當(dāng)前互聯(lián)網(wǎng)的延伸,因?yàn)樾畔⒂星逦髁说暮x,</p><p> 使得人與計(jì)算機(jī)能夠更好地合作。實(shí)際上我們現(xiàn)在所談的語義網(wǎng),并沒有一個(gè)嚴(yán)格的定</p>&l
53、t;p> 義,而是將當(dāng)前的Web網(wǎng)絡(luò)理解為一種語法、句法(Syntactic)網(wǎng),語義網(wǎng)概念思想的</p><p> 出現(xiàn)則是在這一層次關(guān)系上的遞進(jìn)。就目前網(wǎng)絡(luò)而言,它所覆蓋的大部分功能僅僅是將</p><p> 我們輸入的信息按照某種格式顯示出來,因此有人將其稱為是一系列超媒體、數(shù)字資源</p><p> 庫及應(yīng)用平臺,再加上一些相關(guān)的命名序列[9]
54、。這種網(wǎng)絡(luò)所能做的工作就是顯示信息,</p><p> 這對于機(jī)器而言是簡單的,而我們在利用的過程中則要做聯(lián)系與解釋這些很難的工作,</p><p> 語義網(wǎng)思想出現(xiàn)的目的就是要讓計(jì)算機(jī)能夠“理解和處理”現(xiàn)在的Web上僅僅能顯示的</p><p> 數(shù)據(jù),并為人們提供各種智能服務(wù)[10]。</p><p> 從語義萬維網(wǎng)的發(fā)展起源來看
55、,語義網(wǎng)是人工智能領(lǐng)域和Web技術(shù)相互結(jié)合的產(chǎn)</p><p> 物。人工智能中的知識過程研究不斷加深對知識表示和推理的認(rèn)識,并總結(jié)出了一些新</p><p> 的描述和推理方法。而萬維網(wǎng)經(jīng)過十幾年的發(fā)展,不斷積累的海量數(shù)據(jù)和近乎‘爆炸’</p><p> 的信息需要一種新的、機(jī)器可以自動完成的方式來處理和管理?!八?,當(dāng)兩個(gè)領(lǐng)域的</p>&l
56、t;p><b> 3</b></p><p><b> 第一章 緒論</b></p><p> 積累都比較成熟,而且有了需求,就必然會走向結(jié)合”[11]。基于這樣的分析,語義網(wǎng)建</p><p> 立的基礎(chǔ)是知識的概念化和形式化以及相應(yīng)的推理,它和人工智能有著深厚的淵源關(guān)</p><p&g
57、t; 系。因此,許多分析都需要從人工智能領(lǐng)域的角度來考察,尤其是在應(yīng)用層面上考慮檢</p><p> 索代理的智能化處理。</p><p> 1.2.2 語義 Web 的目標(biāo)和特征</p><p> 語義網(wǎng)來源于人工智能,并且得益于數(shù)據(jù)挖掘、自然語言處理等很多相關(guān)領(lǐng)域的研</p><p> 究,雖然因此它們在功能和部分內(nèi)容形式上具有
58、很多相似之處,但因?yàn)楦髯缘膽?yīng)用環(huán)境</p><p> 不同,它們之間也就自然存在著許多顯著的差異。我們可以在區(qū)別一些相關(guān)領(lǐng)域概念的</p><p> 基礎(chǔ)之上歸納語義網(wǎng)的目標(biāo)和特征。</p><p> ?。?)與人工智能的區(qū)別[12];從人工智能的邏輯學(xué)派和認(rèn)知學(xué)派的觀點(diǎn)來看,知識</p><p> 與概念化是人工智能的核心。傳統(tǒng)的人工
59、智能系統(tǒng),要求共同遵守一些公共概念的完全</p><p> 一致的定義,并且一般都有它們各自狹義的、特有的用于信息推理的規(guī)則集合。盡管數(shù)</p><p> 據(jù)能夠從一個(gè)系統(tǒng)轉(zhuǎn)換到另一系統(tǒng),但由于系統(tǒng)間的推理規(guī)則通常以完全不同的形式存</p><p> 在,從而致使一個(gè)系統(tǒng)的規(guī)則不能用于其他系統(tǒng)。從這一點(diǎn)上來看,傳統(tǒng)的人工智能是</p><p
60、> 一種集中、孤立的系統(tǒng)。同樣,語義萬維網(wǎng)也是以知識的概念化表示為基礎(chǔ)展開的。語</p><p> 義萬維網(wǎng)中的知識,就是通過一系列標(biāo)準(zhǔn)和工具對資源的建模及描述。資源,是一個(gè)非</p><p> 常廣泛的概念,它可以是網(wǎng)站、網(wǎng)頁甚至網(wǎng)頁的某一個(gè)部分的內(nèi)容。這種描述采用某種</p><p> 形式的符號和表達(dá)式,對Web上與該資源相關(guān)的其它資源,以及這些
61、資源之間的關(guān)系進(jìn)</p><p> 行刻畫。但是,和傳統(tǒng)的人工智能系統(tǒng)不同,語義萬維網(wǎng)的知識表示的特殊性在于,它</p><p> 本身要符合Web的分散性和通用性。知識的表示本身可能是由眾多的獨(dú)立團(tuán)體或個(gè)人,</p><p> 以各種各樣的方式來提供,而這些知識卻又要求能夠被各種各樣的應(yīng)用實(shí)現(xiàn)共同理解,</p><p> 并且在一定
62、的邏輯規(guī)則指導(dǎo)下進(jìn)行推理。所以語義Web上的知識具有創(chuàng)建上的分散性,</p><p> 同時(shí)又具有應(yīng)用上的通用性。這是語義Web和傳統(tǒng)的人工智能系統(tǒng)一個(gè)非常重要的區(qū)</p><p><b> 別。</b></p><p> ?。?)與自然語言理解的區(qū)別[13];雖然語義網(wǎng)的飛躍發(fā)展在很大程度上得益于與自</p><p&g
63、t; 然語言處理同步研究的機(jī)器翻譯,但兩者最大的不同在于自然語言處理關(guān)心的是人的語</p><p> 言,而語義網(wǎng)則是要設(shè)計(jì)實(shí)現(xiàn)機(jī)器自己所能理解含義的交流工具。可以認(rèn)為兩者在應(yīng)用</p><p> 性研究上有交叉,但研究對象卻是有著顯著區(qū)別的。并且語義網(wǎng)在機(jī)器翻譯中的突出表</p><p> 現(xiàn)僅僅是人們所直接接觸的應(yīng)用之一,不能將其定位在機(jī)器翻譯這一領(lǐng)域之
64、中。</p><p> 通過與這些密切相關(guān)領(lǐng)域概念和功能的區(qū)分,可以對語義網(wǎng)的功能目標(biāo)和環(huán)境特征</p><p> 作以簡單歸納;語義網(wǎng)的目標(biāo)是應(yīng)用有效的標(biāo)準(zhǔn)和技術(shù)使得計(jì)算機(jī)更多地理解網(wǎng)上的信</p><p> 息,從而進(jìn)行知識發(fā)現(xiàn)、數(shù)據(jù)集成、信息導(dǎo)航等。從目前發(fā)展來看,語義網(wǎng)可以被看作</p><p> 是“未來萬維網(wǎng)的雛形”,它所
65、描述的信息具有明確的含義,從而使的計(jì)算機(jī)集成萬維</p><p> 網(wǎng)上的信息并進(jìn)行自動處理變得更為容易。語義網(wǎng)可以提供手段將特定的信息添加到網(wǎng)</p><p> 上,并以此為基礎(chǔ)進(jìn)行知識發(fā)現(xiàn)和關(guān)聯(lián),它還提供了聲明可信賴的方式和手段。通過這</p><p><b> 4</b></p><p><b>
66、 第一章 緒論</b></p><p> 些,我們可以發(fā)現(xiàn),語義網(wǎng)的環(huán)境特征包括[14]:</p><p> (1)所有的資源都能用URI(Uniform Resource Identifier)來標(biāo)識;</p><p> ?。?)資源與鏈接可以有類型;</p><p> ?。?)部分、片段、不完整的信息是容許的;</p
67、><p> ?。?)信息不必是絕對真實(shí)的;</p><p> (5)能支持、反映信息的變化與演化;</p><p> ?。?)最小設(shè)計(jì)原則。</p><p> 1.3 相關(guān)領(lǐng)域的研究現(xiàn)狀</p><p> 國內(nèi)目前在語義Web方面的研究現(xiàn)狀是:基礎(chǔ)研究多,應(yīng)用研究少;跟蹤研究多,</p><p&g
68、t; 創(chuàng)新研究少;《語義信息模型及應(yīng)用》和《語義網(wǎng)簡明教程》兩書是國內(nèi)出現(xiàn)最早的相</p><p> 關(guān)研究教材,但由于近兩年來相關(guān)標(biāo)準(zhǔn)的更新和實(shí)用開發(fā)技術(shù)的出現(xiàn),其結(jié)構(gòu)思路也已</p><p> 經(jīng)不能夠完全適合語義Web發(fā)展的思想。國家自然科學(xué)基金前年啟動了一個(gè)重大項(xiàng)目</p><p> “非規(guī)范知識的基本理論及核心技術(shù)研究”,有七個(gè)子課題,很多學(xué)校和單
69、位都參與其</p><p> 中,目前在上海交大、浙江大學(xué)、武漢大學(xué)、清華、北大、中國農(nóng)業(yè)大學(xué)等國內(nèi)高校都</p><p> 有很多專家及項(xiàng)目小組從事這一方面的研究,與此課題相關(guān)的多數(shù)實(shí)踐研究都處于外文</p><p> 文獻(xiàn)閱讀及實(shí)用工具試用分析過程中。當(dāng)前對于語義Web的研究仍舊集中在特定領(lǐng)域本</p><p> 體構(gòu)造及分析過程
70、中,這一方面是因?yàn)檎Z義Web體系結(jié)構(gòu)的上層還正在構(gòu)建中,另一方</p><p> 面也在于本體是語義Web的核心,是構(gòu)筑語義網(wǎng)絡(luò)信息實(shí)體應(yīng)用的基礎(chǔ)。</p><p> 本體相似度的量化計(jì)算方法,現(xiàn)有兩種途徑[15]:其一是基于本體庫,利用同義詞詞</p><p> 典(Thesaurus)等計(jì)算相似度,Princiton 大學(xué)的 WordNet 就是一部樹狀的
71、英語語義詞典。</p><p> 樹狀圖上兩片樹葉的距離就是這兩個(gè)概念的語義距離,由語義距離可近一步得到本體相</p><p> 似度。其二是基于大規(guī)模的本體庫統(tǒng)計(jì)信息,利用詞語的相關(guān)性來計(jì)算相似度。通常選</p><p> 取一組特征詞,利用在實(shí)際大規(guī)模本體庫中上下文的出現(xiàn)頻率得到相關(guān)性的特征向量,</p><p> 用向量的夾角余
72、弦來計(jì)算相似度。</p><p> 本體位于從文檔描述到知識推理轉(zhuǎn)折的層次,本體的構(gòu)建是實(shí)現(xiàn)語義Web的關(guān)鍵環(huán)</p><p> 節(jié)[16]。國內(nèi)關(guān)于ontology的研究比較廣泛且較深入,相關(guān)論文[17,18 ,19]也較多,大多是在對</p><p> ontology的定義[20,21]、基本含義以及本體語言進(jìn)行簡要介紹的基礎(chǔ)上,就Ontology在相關(guān)
73、</p><p> 學(xué)科領(lǐng)域的影響、應(yīng)用及其構(gòu)造進(jìn)行探討[22,23 ,24]與論述。討論相對較多的主要有本體論</p><p> 與信息檢索、本體論與數(shù)字圖書館、本體論與信息管理,此外還包括知識庫系統(tǒng)、數(shù)據(jù)</p><p> 挖掘、機(jī)器翻譯、需求分析等[24,25 ,26]。</p><p> 1.4 研究的主要問題</p&g
74、t;<p> 本課題研究的主要內(nèi)容就是結(jié)合Rough理論,利用其發(fā)現(xiàn)屬性間的依賴關(guān)系、約簡</p><p><b> 5</b></p><p><b> 第一章 緒論</b></p><p> 冗余屬性與對象,確定屬性的權(quán)重,從語義角度來計(jì)算領(lǐng)域本體的相似度,主要包括領(lǐng)</p><
75、;p> 域本體構(gòu)建、信息資源收集等,最后提出基于Rough集的本體相似性度量算法。重點(diǎn)放</p><p> 在領(lǐng)域本體的構(gòu)建和相似性度量上。</p><p><b> 1.5 主要?jiǎng)?chuàng)新點(diǎn)</b></p><p> 本文在以下兩個(gè)方面有所創(chuàng)新:</p><p> 一是提出了結(jié)合Rough理論中的方法來度量本
76、體的相似度。主要是利用Rough理論</p><p> 來發(fā)現(xiàn)屬性間的依賴關(guān)系,進(jìn)行屬性約簡,度量屬性間的重要度,以此來確定每個(gè)屬性</p><p> 的權(quán)重值,克服已有方法中對屬性權(quán)重值系數(shù)的人為確定的隨意性。</p><p> 二是設(shè)計(jì)了一個(gè)以O(shè)WL作為本體描述語言,采用Rough理論方法進(jìn)行度量的本體相</p><p> 似度計(jì)
77、算系統(tǒng),并實(shí)現(xiàn)了實(shí)驗(yàn)原型。通過該系統(tǒng)的應(yīng)用效果定量分析,驗(yàn)證了基于Rough</p><p> 的本體相似性研究的效果和性能。</p><p><b> 1.6 各章節(jié)安排</b></p><p> 全文共由六章組成。緒論部分扼要闡述了課題研究的目的和意義,通過分析相關(guān)領(lǐng)</p><p> 域研究現(xiàn)狀,提出了課題
78、要解決的關(guān)鍵問題,最后介紹了主要?jiǎng)?chuàng)新點(diǎn)。</p><p> 第二章介紹本體的分類、描述語言,以及如何用描述邏輯語言描述領(lǐng)域問題。</p><p> 第三章主要介紹了Rough集理論中的屬性約簡理論。概述了Rough集的基本概念,</p><p> 重點(diǎn)介紹屬性約簡的基礎(chǔ)知識,分析了現(xiàn)有的屬性約簡理論。</p><p> 第四章介紹了現(xiàn)
79、有的本體相似度計(jì)算方法,提出了基于二進(jìn)制的差別矩陣屬性約簡</p><p> 算法和基于Rough集的本體相似度計(jì)算算法,為基于Rough集的本體相似度度量系統(tǒng)的</p><p> 順利實(shí)施奠定了基礎(chǔ)。</p><p> 第五章介紹了主要開發(fā)工具,并構(gòu)建了一個(gè)旅游本體,設(shè)計(jì)實(shí)現(xiàn)了基于Rough集的</p><p> 本體相似度度量系統(tǒng)
80、,并且通過試驗(yàn)系統(tǒng)驗(yàn)證了該方案的實(shí)踐上的正確性和可行性。</p><p> 第六章給出了本課題研究的主要結(jié)論,并探討了進(jìn)一步研究的方向。</p><p><b> 6</b></p><p> 第二章 語義 Web 及本體</p><p> 第二章 語義 Web 及本體</p><p>
81、 2.1 語義 Web 體系結(jié)構(gòu)</p><p> 在XML 2000會議上,Tim Berners-Lee首次給出了語義Web基本構(gòu)架[29],它是個(gè)功</p><p> 能逐層增強(qiáng)的層次化結(jié)構(gòu),如圖2-1。2001年2月W3C組織正式推出Semantic Web Activity,</p><p> 它成為推動語義網(wǎng)研究和發(fā)展的主要力量。</p>
82、;<p> 圖 2-1 語義網(wǎng)體系結(jié)構(gòu)圖</p><p><b> Fig2-1</b></p><p> Structure Graph of Semantic Web</p><p> 第一層:Unicode和URI。Unicode是一個(gè)字符集,這個(gè)字符集中所有字符都用兩個(gè)</p><p>
83、字節(jié)表示,可以表示65536個(gè)字符,基本上包括了世界上所有語言的字符。數(shù)據(jù)格式采</p><p> 用Unicode的好處就是它支持世界上所有主要語言的混合,并且可以同時(shí)進(jìn)行檢索。</p><p> URI(Uniform Resource Identifier),即統(tǒng)一資源定位符,用于唯一標(biāo)識網(wǎng)絡(luò)上的一個(gè)概念</p><p> 或資源。在語義網(wǎng)體系結(jié)構(gòu)中,該
84、層是整個(gè)語義網(wǎng)的基礎(chǔ),其中Unicode負(fù)責(zé)處理資源</p><p> 的編碼,URI負(fù)責(zé)資源的標(biāo)識[27]。</p><p> 第二層:XML+NS+xmlschema。 XML是一個(gè)精簡的SGML,它綜合了SGML的豐</p><p> 富功能與HTML的易用性,它允許用戶在文檔中加入任意的結(jié)構(gòu),而無需說明這些結(jié)構(gòu)</p><p>
85、 的含意。NS(Name Space)即命名空間,由URI索引確定,目的是為了避免不同的應(yīng)用使</p><p> 用同樣的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品,它</p><p> 本身采用XML語法,但比DTD更加靈活,提供更多的數(shù)據(jù)類型,能更好地為有效的XML</p><p> 文檔服務(wù)并提供數(shù)
86、據(jù)校驗(yàn)機(jī)制。正是由于XML靈活的結(jié)構(gòu)性、由URI索引的NS而帶來的</p><p> 數(shù)據(jù)可確定性以及XML Schema所提供的多種數(shù)據(jù)類型及檢驗(yàn)機(jī)制,使其成為語義網(wǎng)體</p><p> 系結(jié)構(gòu)的重要組成部分。該層負(fù)責(zé)從語法上表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu),通過使用標(biāo)準(zhǔn)的語</p><p> 言將網(wǎng)絡(luò)信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分離[28]。</p>
87、<p><b> 7</b></p><p> 第二章 語義 Web 及本體</p><p> 第三層:RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目</p><p> 標(biāo)是建立一種供多種元數(shù)據(jù)標(biāo)準(zhǔn)共存的框架。該框架能充分利用各種元數(shù)據(jù)的優(yōu)勢,進(jìn)</p><p> 行基
88、于Web 的數(shù)據(jù)交換和再利用。RDF解決的是如何采用XML標(biāo)準(zhǔn)語法無二義性地描</p><p> 述資源對象的問題,使得所描述的資源的元數(shù)據(jù)信息成為機(jī)器可理解的信息。如果把</p><p> XML看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語法規(guī)范的話,那么RDF就可以看作為一種標(biāo)準(zhǔn)化的元</p><p> 數(shù)據(jù)語義描述規(guī)范。Rdfschema使用一種機(jī)器可以理解的體系來定義描
89、述資源的詞匯,</p><p> 其目的是提供詞匯嵌入的機(jī)制或框架,在該框架下多種詞匯可以集成在一起實(shí)現(xiàn)對Web</p><p><b> 資源的描述。</b></p><p> 第四層:Ontology vocabulary。該層是在RDF(S)基礎(chǔ)上定義的概念及其關(guān)系的抽象</p><p> 描述,用于描述應(yīng)
90、用領(lǐng)域的知識[32],描述各類資源及資源之間的關(guān)系,實(shí)現(xiàn)對詞匯表的</p><p> 擴(kuò)展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關(guān)系[30]。</p><p> 第五至七層:Logic、Proof、Trust。Logic負(fù)責(zé)提供公理和推理規(guī)則,而Logic一旦</p><p> 建立,便可以通過邏輯推理對資源、資源之間的關(guān)系以及推理結(jié)果進(jìn)行
91、驗(yàn)證,證明其有</p><p> 效性。通過Proof交換以及數(shù)字簽名,建立一定的信任關(guān)系,從而證明語義網(wǎng)輸出的可靠</p><p> 性以及其是否符合用戶的要求。</p><p> 2.2 本體的定義和分類</p><p> 2.2.1 本體的定義</p><p> 在計(jì)算機(jī)界,明確本體的定義經(jīng)歷了一個(gè)過程
92、。1993年,Gruber給出了本體的一個(gè)</p><p> 最為流行的定義,即“本體是概念模型的明確的規(guī)范說明”</p><p><b> [31]</b></p><p> 修改,提出:“本體是共享模型的形式化規(guī)范說明”。Studer等對上述兩個(gè)定義進(jìn)行了</p><p> 深入的研究,認(rèn)為本體是共享概念模型
93、的明確的形式化規(guī)范說明。這個(gè)定義包含4層含</p><p> 義:概念化(Conceptualization)、明確(Explicit)、形式化(Formal)和共享(Share)</p><p><b> [32]</b></p><p> “概念化”指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到概述模型,即概念</p>
94、<p> 系統(tǒng)所蘊(yùn)涵的語義結(jié)構(gòu),是對某一事實(shí)結(jié)構(gòu)的一組非正式的約束規(guī)則,可以理解和表達(dá)</p><p> 為一組概念(如實(shí)體、屬性、過程)、定義和關(guān)系。</p><p> “明確”指所使用的概念及使用這些概念的約束都有明確的定義。</p><p> “形式化”指本體中體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,</p>&
95、lt;p> 即本體針對的是社會范疇而非個(gè)體之間的共識。</p><p> 除上述定義外,不少文獻(xiàn)從不同的問題域和研究角度出發(fā),對本體又給出了各種各</p><p> 樣的定義。總而言之,本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域</p><p> 知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這</p&g
96、t;<p> 些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義。</p><p><b> 8</b></p><p> 第二章 語義 Web 及本體</p><p> 本體的研究與應(yīng)用主要包括3個(gè)方面[33]:(1)理論上的研究,主要研究概念及其分</p><p> 類、本體上的代數(shù);(2)在信息系統(tǒng)中
97、的應(yīng)用,主要包括處理信息組織、信息檢索和</p><p> 異構(gòu)信息系統(tǒng)互操作問題;(3)本體作為一種能在知識層提供知識共享和重用的工具</p><p> 在語義Web中的應(yīng)用。</p><p> 2.2.2 本體的分類</p><p> 對不同的研究者,本體可以是一個(gè)邏輯理論、一個(gè)形式化語義記錄、邏輯理論詞匯、</p>
98、<p> 或概念化規(guī)約,但是依然可以看出,這些定義有著共同的目標(biāo),它們都是捕獲相關(guān)領(lǐng)域</p><p> 的知識,提供對該知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形</p><p> 式化模式上給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義[34]。根據(jù)本體不同方</p><p> 面的屬性(如形式化程度和描述的對象)可以對本
99、體進(jìn)行不同的分類[35]。</p><p> 根據(jù)本體的形式化程度不同,可以把本體分為:</p><p> 高度非形式化的(high-informal) 用自然語言自由隨意地表達(dá);</p><p> 結(jié)構(gòu)非形式化的(structured-informal) 用受限定的結(jié)構(gòu)式自然語言表達(dá)。</p><p> 半形式化的(semi-for
100、mal) 用人工定義的形式語言表達(dá);</p><p> 嚴(yán)格形式化的(rigorously formal) 用屬性的形式語義、定理和證明嚴(yán)格、仔細(xì)地</p><p> 定義術(shù)語。并使之具有正確性和完整性。</p><p> 根據(jù)本體的描述對象不同,可以把本體分為特殊領(lǐng)域本體(如醫(yī)藥、地理、金融等)、</p><p> 一般世界知識本體
101、、問題求解本體和知識表示語言本體。</p><p> Guarino提出以詳細(xì)程度和領(lǐng)域依賴度作為本體的劃分基礎(chǔ)[36],詳細(xì)程度是指描述</p><p> 或刻畫建模對象的程度,它是一個(gè)相對的較模糊的概念。詳細(xì)程度高的本體稱為參考本</p><p> 體,詳細(xì)程度低的本體稱為共享本體。依照領(lǐng)域依賴程度可以分為頂級本體、領(lǐng)域本體、</p><
102、;p> 任務(wù)本體和應(yīng)用本體四類,其中:(1)頂級本體:描述的是最普通的概念及概念之間</p><p> 的關(guān)系,如空間、時(shí)間、事件等,與具體的應(yīng)用無關(guān)。其它種類的本體都是該類本體的</p><p> 特例。(2)領(lǐng)域本體:描述的是特定領(lǐng)域(醫(yī)藥、地理等)中的概念及概念之間的關(guān)</p><p> 系。(3)任務(wù)本體:描述的是特定任務(wù)和行為中的概念及概念之
103、間的關(guān)系。(4)應(yīng)用</p><p> 本體:描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。</p><p> 1999年P(guān)erez和Ben jamins在分析和研究了各種本體的分類法的基礎(chǔ)上歸納出10種本</p><p> 體[40]:知識表示本體、普通本體、頂級本體、元本體、領(lǐng)域本體、語言本體、任務(wù)本體、</p><p>
104、領(lǐng)域-任務(wù)本體、方法本體和應(yīng)用本體。該分類方法是對Guarino所提出分類方法的擴(kuò)充</p><p> 和細(xì)化。但這10種本體之間有交叉,層次不夠清晰。</p><p><b> 2.3 本體的建模</b></p><p> 對于本體的具體構(gòu)造過程,可以用下面的公式形象地給出:</p><p> 本體=概念(Co
105、ncept)+屬性(Property)+公理(Axiom)+取值(Value)+名義(Nominal)[10]</p><p><b> 9</b></p><p> 第二章 語義 Web 及本體</p><p> 概念可分成“原始概念(Primitive concept)”(屬性是必要條件,而非充要條件的</p><
106、p> 情況)和“定義概念(Defined concepts)”(屬性是充分必要條件的情況)兩種。屬性則是</p><p> 對概念特征或性質(zhì)的描述。例如:“人是哺乳動物”是簡單概念,“素?cái)?shù)是只能被1和</p><p> 自身整除的正整數(shù)”則是定義概念。至于“公理”,即是定義在“概念”和“屬性”上</p><p> 的限定和規(guī)則。“取值”則是具體的賦值,
107、“名義”是無實(shí)例的概念或者是用在概念定</p><p><b> 義中的實(shí)例。</b></p><p> 從語義上分析,實(shí)例表示的就是對象,而概念表示的則是對象的集合,關(guān)系對應(yīng)于</p><p> 對象元組的集合。概念的定義一般采用框架結(jié)構(gòu),包括概念的名稱,與其他概念之間關(guān)</p><p> 系的集合,以及用自然
108、語言對該概念的描述?;镜年P(guān)系有四種:part-of ,kind-of,</p><p> instance-of和attribute-of。part-of表達(dá)概念之間部分與整體的關(guān)系,kind-of表達(dá)概念之間</p><p> 的繼承關(guān)系,instance-of表達(dá)概念的實(shí)例和概念之間的關(guān)系,attribute-of表達(dá)某個(gè)概念是</p><p> 另外一
109、個(gè)概念的屬性。如圖2-2用一個(gè)簡單的有向圖來表示一個(gè)簡單的運(yùn)輸本體。</p><p><b> 圖 2-2</b></p><p><b> 運(yùn)輸本體</b></p><p><b> Fig2-2</b></p><p> Ontology of Transport&
110、lt;/p><p> Perez等人用分類法組織本體,歸納出5個(gè)基本建模原語來形式化表示本體[37]:</p><p> 類(classer)或概念(concepts):指任何事務(wù),如任務(wù)、功能、行為、策略和推理過程。從</p><p> 語義上講,它表示的是對象的集合,其定義一般采用框架(frame)結(jié)構(gòu),包括概念的</p><p>
111、名稱,與其它概念之間的關(guān)系的集合,以及用自然語言對概念的描述。</p><p> 關(guān)系(relations):在領(lǐng)域中概念之間的交互作用,形式上定義為n維笛卡兒積的子集:</p><p> R:C1*C2*…*Cn.如子類關(guān)系(subclass-of)。在語義上關(guān)系對應(yīng)于對象元組的集合。</p><p> 函數(shù)(functions):一類特殊的關(guān)系。該關(guān)系的前
112、n-1個(gè)元素可以唯一決定第n個(gè)元素。</p><p><b> 10</b></p><p> 第二章 語義 Web 及本體</p><p> 形式化的定義為F:C1*C2*…*Cn-1->Cn。如Price-of-a-used-car就是一個(gè)函數(shù),是根據(jù)車</p><p> 型、制造日期、行駛路程計(jì)算的二
113、手車的價(jià)格。</p><p> 公理(axioms):代表永真斷言,如概念乙屬于概念甲的范圍。</p><p> 實(shí)例(instances):代表元素。從語義上將實(shí)例表示的就是對象。</p><p> 在實(shí)際建模過程中,可以根據(jù)具體的需要定義概念之間的關(guān)系,并不局限于前面所</p><p> 述的4種。一般來說,在構(gòu)造一個(gè)本體時(shí)需要經(jīng)
114、過以下幾步:</p><p> 確定本體領(lǐng)域和范圍。對具體研究領(lǐng)域建立相應(yīng)的本體,領(lǐng)域越大,所建本體就越</p><p> 大,因此需要限制研究的范圍;</p><p> 可以考慮復(fù)用現(xiàn)有的本體。如果所研究的領(lǐng)域需要用到其它領(lǐng)域的知識,那么直接</p><p> 復(fù)用已有的本體,可以提高資源的利用率;</p><p
115、> 列舉出本體中的重要術(shù)語。把所研究領(lǐng)域的各個(gè)實(shí)體對象及其屬性、關(guān)系等用術(shù)語</p><p><b> 表示出來;</b></p><p> 定義類和類層次。類定義是指一個(gè)類的描述,其中包括類型定義,相關(guān)子類的定義</p><p> 等。在定義類層次時(shí)可以用三中不同的方法:(1)、先定義最全面的概念然后再對概</p>
116、<p> 念進(jìn)行細(xì)化,即按自頂向下的方向來進(jìn)行;(2)、先定義最具體的概念,然后再把具</p><p> 體概念組合成最具概括性的概念,即按自底向上的方向來進(jìn)行;(3)把上述兩種想結(jié)</p><p> 合,即按自頂向下和自底向上的兩個(gè)方向同時(shí)進(jìn)行。</p><p> 定義類的屬性。對類進(jìn)行定義時(shí),可以同時(shí)定義類的屬性。比較常用的屬性類型有<
117、/p><p> 字符型、數(shù)值型、布爾型和枚舉型。</p><p> 定義槽的約束。一個(gè)槽可以有許多面。它們分別來描述值的大小、值的類型、值的</p><p><b> 范圍、值的維度等。</b></p><p> 生成實(shí)例。定義一個(gè)類所需要的單個(gè)實(shí)例,這個(gè)過程需要三步,即(1)選擇一個(gè)</p><
118、p> 類;(2)生成類的單個(gè)實(shí)例;(3)填充槽的值。</p><p> Grulzer于1995年在文獻(xiàn)[38]中提出本體發(fā)展過程中構(gòu)建本體的標(biāo)準(zhǔn)和原則:清晰性</p><p> (clarity)、明確性和客觀性,完全性(Completenese),一致性(Coherence),最大單調(diào)擴(kuò)展</p><p> 性(Extendibility),最小承
119、諾(Minimal ontological commitment)和最小編碼偏好(Minimal</p><p> encoding bias)。</p><p> 5條準(zhǔn)則給出了構(gòu)造本體的基本思路和框架,在遵循上述規(guī)則的基礎(chǔ)上,人們創(chuàng)建</p><p> 了許多的本體。Mariano在研究了現(xiàn)有各類構(gòu)建本體的方法的基礎(chǔ)上,歸納出目前5種比</p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于ROUGH集理論的本體相似性技術(shù)研究.pdf
- 基于本體映射的概念相似性算法研究.pdf
- 基于SIFT特征的圖像相似性檢索技術(shù)研究.pdf
- 基于Rough集方法的機(jī)器學(xué)習(xí)技術(shù)研究.pdf
- 基于語義相似性的Web服務(wù)匹配技術(shù)研究.pdf
- 基于相似理論的環(huán)形桁架天線振動相似性研究.pdf
- 自相似集與其平移的并集的自相似性.pdf
- 基于Rough集理論的信息過濾研究.pdf
- 基于集對相似性度量的社區(qū)發(fā)現(xiàn)算法研究.pdf
- 基于運(yùn)動軌跡的相似性分析及異常檢測技術(shù)研究.pdf
- 基于灰度相似性測度的醫(yī)學(xué)圖像配準(zhǔn)技術(shù)研究.pdf
- 基于局部敏感性哈希的代碼相似性檢測技術(shù)研究.pdf
- 基于拓?fù)湎嗨菩耘c語義相似性的疾病基因預(yù)測研究.pdf
- 面向聚類分析的數(shù)據(jù)集相似性研究.pdf
- 基于Rough集理論的入侵檢測方法研究.pdf
- 相似性學(xué)習(xí)及基于相似性的數(shù)據(jù)低維表示.pdf
- 時(shí)間序列挖掘與相似性查找技術(shù)研究.pdf
- 基于序貫相似性檢測思想的字符識別技術(shù)研究.pdf
- 基于基因本體(GO)的基因語義相似性度量方法的研究及應(yīng)用.pdf
- 基于指紋檢索的文本相似性檢測技術(shù)研究與應(yīng)用.pdf
評論
0/150
提交評論