2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩123頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)所覆蓋的范圍越來越廣,同時互聯(lián)網(wǎng)上的信息也呈爆炸性增長。面對如此龐大的信息量,即使采用目前的網(wǎng)絡(luò)目錄或者搜索引擎技術(shù),要找到所需要的信息以及信息的組合,仍然是非常困難的。如何讓機器能夠簡單的理解Web上的信息,在找到Web上的信息并交給人類以前,盡可能的理解人類的意圖,并分析Web上的信息,增加最后人類找到正確目標的可能性甚至完全替代人類的工作,是語義Web所要達到的目標。 語義Web不是一個獨立的概

2、念而是對現(xiàn)有Web的一個擴展。語義Web由知識表達、本體和代理三個部分構(gòu)成。本體是概念的集合,另外在本體中還包含概念的屬性以及概念之間的關(guān)系。語義Web中的本體是以描述邏輯為基礎(chǔ)的,因此它支持簡單的推理能力。這使得語義Web比傳統(tǒng)的Web對信息的描述能力顯著增強。另外,計算機之間可以通過理解互相的本體來達到交流知識的目的,甚至人類也可以通過專家系統(tǒng)本體來和機器交流知識。 本體賦予語義Web語義信息,因此圍繞本體對互聯(lián)網(wǎng)信息進行的

3、操作的研究成為語義Web研究的一個重要領(lǐng)域。這些領(lǐng)域包括本體標注、本體集成、本體構(gòu)建以及基于本體的機器學習。目前本體的研究存在以下問題: 1)目前實用的本體應用十分有限。大多數(shù)的本體應用僅僅停留在本體理論階段。 2)已開發(fā)出來的本體內(nèi)容不夠深入,形式化程度不夠。 3)本體的應用基于機器對本體的理解,相應關(guān)于本體理解的理論研究相對有限。 針對機器對本體的理解,本文提出了對信息的一種新的本體描述方法和用于本體

4、比較的本體相似算法以及具體的應用,在這方面做深入的探索。 本體的使用不僅僅是為了在一個小的領(lǐng)域內(nèi)實現(xiàn)計算機對信息的理解和交流,更是為不同領(lǐng)域計算機對信息的理解和交流提供了一種表達方式,所以本體在知識表達領(lǐng)域具有重要的作用?;诒倔w工作的系統(tǒng)往往是由很多本體組成。在這種表達方式的基礎(chǔ)上,對本體的進一步處理,才是計算機理解語義Web中信息的核心。對本體的操作都是以計算兩個本體之間的相似度或者兩個本體的部分之間的相似度為基礎(chǔ)的。

5、 本體相似主要是針對本體中的實體,從圖論、字符串或者語法等角度來比較兩個本體的異同。本體相似的應用場景主要包括本體(或概念)映射、本體集成、本體比較、本體擴展、本體模塊化以及Web Service中業(yè)務(wù)發(fā)現(xiàn),業(yè)務(wù)組合等。 現(xiàn)有的本體相似度計算技術(shù)主要從下面的八個角度出發(fā)來計算本體相似度的: 1)從字符串的角度; 2)詞義或者自然語言的角度; 3)原子概念的可比較屬性的綜合比較; 4)原子概念的類

6、型以及與其他原子概念的關(guān)系; 5)本體的結(jié)構(gòu)或者本體構(gòu)造的圖或者樹的角度; 6)推理的角度; 7)機器學習的角度; 8)應用場景。 本體相似技術(shù)還處于剛剛起步的階段,很多方面需要界定和研究。只有完善的定義了本體相似,才能在對信息進行本體描述的基礎(chǔ)上,完成對信息的計算機理解和處理。另外,關(guān)于本體相似計算的性能以及服務(wù)質(zhì)量問題,也是一個全新的尚未被提出和界定的領(lǐng)域。在處理本體相似過程中,動態(tài)、高效是未

7、來的發(fā)展方向。 語義Web上每個文檔都是一個本體,這些文檔可以構(gòu)造成大的本體,而在這些文檔內(nèi)部,又可以拆分成小的本體。 在語義Web中可以用一個或者一族本體對某個領(lǐng)域的知識進行歸納和描述,這些本體稱為領(lǐng)域本體。在領(lǐng)域本體中定義了領(lǐng)域中基本的概念、概念的屬性以及概念之間的關(guān)系。受限本體是指用領(lǐng)域本體描述的本體內(nèi)的信息。 在語義Web中,在完成對標注后信息的本體描述后,需要計算兩個本體的相似度來判定某個本體是正例或反

8、例。目前已有的本體相似算法都是通過比較語法來計算本體的相似度,然而當前所有包含內(nèi)容的本體都是受限本體,它們都繼承自同樣的領(lǐng)域本體,因此在受限本體之上計算相似度需要構(gòu)建新的相似算法把本體比較量化。 已有的本體匹配算法大多數(shù)都沒有應用本體的推理能力對本體中包含的關(guān)系進行深入的挖掘,這主要是因為在應用推力能力的過程中,很容易使算法陷入循環(huán)。本文提到的本體匹配算法,僅僅應用了第一次推理的結(jié)果來比較實體之間在關(guān)系方面的相似度,這就避免了陷

9、入循環(huán),同時又能夠應用本體的推理能力。受限本體相似的核心原則是充分利用本體關(guān)系推理過程中生成的關(guān)系集計算相似度。 本體的相似度定義從根本上是為了應用服務(wù)的,所以基本可比屬性的定義以及權(quán)重的定義都由應用來決定,同時二階的定義一方面充分利用了本體自身的推理能力,另一方面又避免了因為引入關(guān)系而造成的循環(huán)計算。 信息抽取是自然語言處理和人工智能的結(jié)合。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實信息。信息抽取系統(tǒng)中的關(guān)鍵技術(shù)

10、主要包括:自然語言處理、命名實體識別、篇章分析及推理和知識獲取。信息抽取過程包括學習過程和應用過程。學習過程是一個機器學習的過程,主要針對特定領(lǐng)域內(nèi)的文檔集合進行學習,而應用過程是針對學習的結(jié)果在未知文檔上進行實踐。 現(xiàn)有的信息抽取算法基本上都是采用自然語言處理工具對文檔進行標注并學習。這些算法按照學習過程的不同可以分為三類:規(guī)則學習、分類學習以及統(tǒng)計學習。這三個分類也不是孤立的,例如在規(guī)則學習算法中,對規(guī)則的取舍通常就要用到統(tǒng)

11、計。 為了深入挖掘標注后文檔中的關(guān)系,提高信息抽取的效率,我們提出了用語義Web中的本體對自然語言處理后的文檔進行二次描述,然后應用合理的機器學習過程來學習并應用學習結(jié)果到未知文檔中。在本文中我們的機器學習工具是支持向量機和人工神經(jīng)網(wǎng)絡(luò)。本體自身的簡單推理能力和機器學習的合理應用是算法取得優(yōu)秀結(jié)果的關(guān)鍵。這個算法稱為基于本體關(guān)系匹配的信息抽取(OERM)。 OERM算法中關(guān)鍵的技術(shù)是本體表達方式、本體比較。采用本體來描述待抽取字

12、段的上下文關(guān)系,對原始文本內(nèi)容進行了深入的擴展。這是以往基于規(guī)則的抽取或基于統(tǒng)計的抽取技術(shù)的描述能力所未涉及的;而且通過本體簡單的推理能力,還能夠?qū)κ芟薇倔w中蘊涵的關(guān)系進行深入的挖掘。另外,ANN和SVM-UM很適合這種數(shù)據(jù)稀疏而且有相當程度的噪音的應用,在采用合理的終止條件判定方案后,可以達到了良好的效果。 OERM算法在兩個數(shù)據(jù)集上的評測都優(yōu)于已有的信息抽取系統(tǒng),另一方面,實驗結(jié)果顯示,應用一個小的訓練集合,OERM算法就能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論