基于UIMA的內容搜索.pdf_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、由于互聯(lián)網迅猛發(fā)展和普及,電子文本信息迅速膨脹,如何有效地組織和管理這些信息,并快速、準確、全面地從中找到用戶所需要的信息是當前信息科學和技術領域面臨的一大挑戰(zhàn)。本論文正是在搜索引擎的應用背景下探索信息檢索效果的提高下產生的。其中,文本分類作為信息檢索的關鍵技術,可以在較大程度上解決信息雜亂現(xiàn)象的問題,方便用戶準確地定位所需的信息和分流信息。本論文采用在UIMA(UnstructuredInformationManagementArch

2、itecture,非結構化信息管理架構)框架下使用分類算法實現(xiàn)文本分類的高精度。該框架可以分辨出文本和其他非結構性數(shù)據(jù)中的語義,它超越了目前大多數(shù)搜索引擎所使用的關鍵詞搜索方式,從而簡化了分析非結構化媒體對象的系統(tǒng)的開發(fā)和部署,可以用來提供語義搜索和文本挖掘等功能。它還提供了一種具有標準界面的開放軟件框架,以便為任何應用添加非結構化的信息分析能力;方便地跨數(shù)個不同供應商將分析軟件工具與端到端的企業(yè)應用進行集成,這樣加速創(chuàng)建可重新使用的全

3、新分析軟件構件。本論文的文本分類過程分為訓練階段和測試階段。訓練階段有文本預處理,包括一般包括去除文檔中的格式標記、過濾非法字符、字母大小寫轉換、去除停用詞和稀有詞、詞干化處理和中文分詞處理(N-Gram模型)等;特征項選擇和提取,選用了交叉熵作為評估函數(shù);分類模型使用了貝葉斯原理構造。測試階段利用UIMA框架簡化分析文檔的系統(tǒng)開發(fā)和部署,以及使用了它提供語義搜索和文本挖掘的功能的相關組件,比如Annotator(標注器),Common

4、AnalysisSystem(通用分析系統(tǒng)),AnalysisEngine(分析引擎)等;使用訓練好的分類器對測試文檔集進行分類,并用目前比較流行的混淆矩陣進行了精度評估分類準確率。通過實驗對影響文本分類性能的各種問題進行深入研究,提出有效的解決或改進的方法和技術,使文本分類器能夠具有更好的穩(wěn)定性、快速性和準確性等特性,比如訓練樣本集的選擇,跨語種的文本分類技術,文本信息過濾等。通過實驗,在UIMA框架下從非結構化信息文本中提取出結構化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論