基于文本挖掘的Topic Maps自動構建方法研究.pdf_第1頁
已閱讀1頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、互聯(lián)網(wǎng)的迅速發(fā)展帶來了豐富而龐雜的信息。傳統(tǒng)知識組織方式在應對數(shù)字化信息環(huán)境中類型多樣、存在方式各異的信息時,往往顯得力不從心。Topic Maps作為一種新的知識組織方式由此應運而生,其通過富有表現(xiàn)力的數(shù)據(jù)結構,直觀自然的知識建模方式、由數(shù)據(jù)驅動的靈活的模式、簡單而系列化的數(shù)據(jù)格式、明確的合并規(guī)則等,迅速成為互聯(lián)網(wǎng)知識組織的主流技術之一。
   TopicMaps提出了一種基于主題的元數(shù)據(jù)組織和描述方法,借助主題(Topic)

2、、聯(lián)系(Association)和資源指引(Occurrence)三要素提供語義級的數(shù)據(jù)導航和資源組織方式。但是研究發(fā)現(xiàn),在構建Topic Maps的過程中,構建者面臨著諸多問題,如內(nèi)容的概念化和分類,主題的識別與標識以及主題間關系的發(fā)現(xiàn)與表征等。TopicMaps的構建者必須要處理大量復雜的知識體系中形式各異的知識,概念或角色。從這一角度出發(fā),借鑒文本挖掘能從大量非結構化的文本中發(fā)現(xiàn)潛在的概念以及概念間的相互關系的特性,本文提出了基于

3、文本挖掘的Topic Maps自動構建方案。
   以學前教育領域為例,基于文本挖掘的Topic Maps自動構建方案首先提出一種簡潔而高效的術語抽取方法,從領域文檔中抽取出作為領域表征的術語詞。在此基礎上,綜合考慮語義語法和統(tǒng)計學的特征對抽取出的術語進行詞聚類,構建出以術語簇的形式表征的主題;通過文檔與表征主題的術語簇相似度的計算,進行文檔與主題的匹配,形成資源與主題的映射,最終形成領域的主題地圖。學前教育領域的實驗充分考慮到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論