

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、信息爆炸時代需要一個能在海量信息中高效篩選信息的工具,基于本體的信息整合就是解決這一難題的出路。信息系統(tǒng)之間往往由于結(jié)構(gòu)異構(gòu)、語法異構(gòu)、系統(tǒng)異構(gòu)、語義異構(gòu)等原因,使得系統(tǒng)間的信息資源難以共享和重用。解決上述問題只能是引入本體,才能實現(xiàn)信息整合。
基于本體的信息抽取、整合系統(tǒng)主要有四大組成部分:類庫、知識庫、處理子系統(tǒng)、數(shù)據(jù)黑板。類庫是本系統(tǒng)處理的基礎(chǔ),它負(fù)責(zé)提供處理需要的各種基本操作;知識庫包括詞典、文本分類知識庫、對象判定知
2、識庫、信息抽取知識庫,它是系統(tǒng)進(jìn)行各項處理的基礎(chǔ);數(shù)據(jù)黑板是本系統(tǒng)的所有分析數(shù)據(jù)的匯總,為系統(tǒng)的各項處理提供服務(wù);處理子系統(tǒng)完成系統(tǒng)的各項功能,它由依次相連的七個模塊組成:分詞、文本分類、對象判定、查元記憶、信息抽取、信息整合、信息存儲。
本體是知識的概念模型。構(gòu)建本體的目的是為了知識的表示、共享和重用。在面向自然語言理解的各種知識庫的建設(shè)過程中,本體論都是無法回避的。四項著名的本體論項目Cyc、WordNet、知網(wǎng)、HNC為
3、自然語言理解和機(jī)器翻譯等方面的研究提供了寶貴的資源。OWL作為W3C推薦的Web本體標(biāo)準(zhǔn)語言,具有強(qiáng)大的語義表達(dá)能力,在人工智能領(lǐng)域得到廣泛應(yīng)用。本文嘗試構(gòu)建了軍備情報這一領(lǐng)域知識的本體。
漢語自動分詞面臨著兩大難題:歧義字段和未登錄詞。這兩者的相互糾纏使分詞系統(tǒng)所面臨的形勢更加復(fù)雜化。漢語詞典的快速查詢是整個處理系統(tǒng)效率的關(guān)鍵所在?;谌龜?shù)組 Trie索引樹的詞典查詢機(jī)制由于采用了由短詞及長詞的確定性工作方式,避免了整詞二分
4、查詢機(jī)制中不必要的多次試探性查詢,效率極高。本文開發(fā)的基于三數(shù)組Trie索引樹的分詞算法處理效率也極高。
基于機(jī)器學(xué)習(xí)的文本分類系統(tǒng)分為兩個相對獨(dú)立的模塊:訓(xùn)練模塊和分類模塊。訓(xùn)練模塊是利用訓(xùn)練文本集完成分類規(guī)則的獲得,從而建立起分類器;分類模塊則在分類器建立后利用分類器對測試文本進(jìn)行分類處理。文本表示主要采用向量空間模型,而向量的維數(shù)巨大,需要對文本進(jìn)行特征篩選。本文綜合利用文檔頻次、詞頻和互信息來構(gòu)造評估函數(shù)進(jìn)行特征篩選,
5、并使用K-近鄰算法對文本進(jìn)行分類,實驗結(jié)果令人滿意。
對象判定技術(shù)以命名實體識別為基礎(chǔ),比較文章內(nèi)的所有命名實體,從而篩選出最主要的一個或幾個命名實體。人們判定文章的討論對象的主要依據(jù)有:標(biāo)題中的、介引句中的、每段首句中的命名實體。本文的對象判定系統(tǒng)采用規(guī)則和統(tǒng)計相結(jié)合的方法,來模擬人們?nèi)粘i喿x中的智力活動,實現(xiàn)了對象判定。但目前該系統(tǒng)尚不具備對多討論對象的文章進(jìn)行對象判定能力。
信息抽取系統(tǒng)的主要功能是從文本中抽取
6、出特定的信息。本文的基于關(guān)鍵詞驅(qū)動的信息抽取系統(tǒng)由知識庫、處理程序、數(shù)據(jù)黑板三部分構(gòu)成。其本質(zhì)上是基于規(guī)則的信息抽取系統(tǒng),而信息抽取規(guī)則是一種產(chǎn)生式規(guī)則:條件→操作,即如果句法語義模式匹配成功,則從句中抽取相應(yīng)的信息。筆者設(shè)計出了能滿足信息抽取實際需要的信息抽取規(guī)則描述語言,保證了系統(tǒng)具有較好的可移植性。本系統(tǒng)采用絕對定位和相對定位相結(jié)合的方法來實現(xiàn)測試位置的推移,滿足了測試規(guī)則的需要。
基于本體的信息整合采用的是整體-局部法
7、,先構(gòu)造領(lǐng)域知識的全局本體,并以對象為中心組織信息,然后再抽取、整合信息,因而在技術(shù)上就表現(xiàn)為將同一對象的新信息整合進(jìn)舊信息的過程,并最終演變成對同一對象的同一屬性值進(jìn)行整合的過程。對象的屬性值可以分為兩類:數(shù)量結(jié)構(gòu)和非數(shù)量結(jié)構(gòu)。數(shù)量結(jié)構(gòu)的屬性值在整合時,首先需要進(jìn)行數(shù)和量的標(biāo)準(zhǔn)化。目前,非數(shù)量結(jié)構(gòu)的屬性值在整合時只能采用機(jī)械的字符串匹配方式。
最后,本文綜合集成以上的各項技術(shù),開發(fā)出了一個能在一定程度上真正在語義層面上實現(xiàn)信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 本體導(dǎo)向的對象信息抽取關(guān)鍵技術(shù)研究及實現(xiàn).pdf
- 基于本體和文本特征的Web信息抽取技術(shù)研究.pdf
- 基于本體的信息抽取研究.pdf
- 基于本體的Web信息抽取.pdf
- 基于本體的文本信息抽取技術(shù)及實現(xiàn).pdf
- 車牌識別的關(guān)鍵性技術(shù)研究.pdf
- 基于本體的Web信息集成若干關(guān)鍵技術(shù)研究.pdf
- 基于本體的Web非規(guī)范知識處理中信息抽取技術(shù)研究.pdf
- 基于Web的信息抽取技術(shù)研究.pdf
- 基于HTML的信息抽取技術(shù)研究.pdf
- 基于本體的個人站點信息抽取研究.pdf
- 基于領(lǐng)域本體的Web信息抽取研究.pdf
- 基于信息熵的Web信息抽取技術(shù)研究.pdf
- 海堤公路建設(shè)關(guān)鍵性技術(shù)研究.pdf
- 基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究.pdf
- Web對象的信息抽取的關(guān)鍵技術(shù)研究.pdf
- 基于Internet的信息抽取技術(shù)研究.pdf
- 基于語義擴(kuò)展的信息抽取技術(shù)研究.pdf
- 網(wǎng)絡(luò)信息抽取系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 基于本體的產(chǎn)品信息抽取系統(tǒng)的研究.pdf
評論
0/150
提交評論