版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著信息技術(shù)的不斷發(fā)展,大量的文本信息開始以計算機可讀的形式存在,許多領(lǐng)域信息都呈現(xiàn)出爆炸式增長,因此如何在海量的信息當中,快速并準確地提取對讀者有用的信息將是一個重要的課題。關(guān)鍵詞提取就是一種解決上述問題的有效手段,關(guān)鍵詞是對文章主題信息的精煉,使讀者快速掌握該文本的重要信息,提高信息訪問的效率,具有明顯的現(xiàn)實意義。
關(guān)鍵詞提取是文本挖掘領(lǐng)域中研究的核心技術(shù)之一,起著十分重要的作用。信息的載體主要以文本為主,然而目前絕大多數(shù)
2、文本信息還尚未提供關(guān)鍵詞,同時目前存在的幾種關(guān)鍵詞提取算法,還無法很好解決多義詞詞義消歧、同義詞冗余表達、構(gòu)建的分類器訓練過程中還可能存在過擬合、構(gòu)建的詞匯鏈不能準確表達文本語義結(jié)構(gòu)等問題,為此本文提出了兩種基于語義分析的改進方法,深入到語義層次,進一步挖掘出表達文本主題的潛在信息,提出的方法較好地解決了多義詞詞義消歧、構(gòu)建的詞匯鏈準確全面地覆蓋文本主題信息等問題,同時避免了同義詞冗余表達,尤其對同義詞較多的文章效果更為明顯。本文主要工
3、作如下:
1、基于語義詞典和詞匯鏈的關(guān)鍵詞提取算法中文語義詞典中《同義詞詞林》語義詞典編碼簡單,比其他知識庫擁有更為豐富且易于語義理解的同義詞組的優(yōu)勢,同時詞匯鏈很好地表達了文本的語義結(jié)構(gòu)和多個主題信息。因此本文提出了一個完整的基于語義詞典和詞匯鏈的關(guān)鍵詞提取算法KETCLC(Keyword Extraction based on Tongyici Cilin and Lexical Chain),通過分析《同義詞詞林》和詞匯
4、鏈的特性,將兩者相結(jié)合并根據(jù)其結(jié)合的優(yōu)勢,對文本分別作預處理、多義詞詞義消歧、同義詞合并、詞匯鏈構(gòu)建、有效特征選取及對權(quán)重綜合計算改進的等處理來提高關(guān)鍵詞提取的質(zhì)量。
2、結(jié)合語義擴展度和詞匯鏈的關(guān)鍵詞提取算法目前存在的構(gòu)建詞匯鏈的方法都是單純采用語義相似度或者語義相關(guān)度計算詞語間的語義關(guān)系,但是構(gòu)建出來的詞匯鏈不能準確全面地表達詞語間的關(guān)聯(lián)和語義關(guān)系,從而影響了文章主題表達的精確度和關(guān)鍵詞提取的質(zhì)量。因此,本文在KETCLC
5、算法的實驗驗證基礎(chǔ)上,提出了一個完整的結(jié)合語義擴展度和詞匯鏈的關(guān)鍵詞提取算法KESELC(Keyword Extraction based on Semantic Expansion integrated with Lexical Chain),基于《同義詞詞林》語義詞典,從語義分析角度,計算語義相似度和語義相關(guān)度,并綜合考慮兩者得出語義擴展度及其計算方法,將語義擴展度和詞匯鏈方法相結(jié)合進行關(guān)鍵詞提取,有助于挖掘出出現(xiàn)頻率不高但對文章具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于文本的關(guān)鍵詞提取方法研究與實現(xiàn).pdf
- TextRank關(guān)鍵詞提取算法與SOM文本聚類模型的優(yōu)化研究.pdf
- 基于基因表達式編程的中文文本關(guān)鍵詞提取算法研究.pdf
- 基于改進的TFIDF關(guān)鍵詞自動提取算法研究.pdf
- 跨語言醫(yī)學信息挖掘中關(guān)鍵詞提取方法的研究.pdf
- 關(guān)鍵詞的挖掘和分布
- 中文文本關(guān)鍵詞提取和文本聚類中聚類中心點選取算法研究.pdf
- 中文關(guān)鍵詞提取技術(shù).pdf
- 基于詞跨度的中文文本關(guān)鍵詞提取及在文本分類中的應用.pdf
- 基于詞跨度的網(wǎng)頁關(guān)鍵詞提取方法研究.pdf
- 基于網(wǎng)頁文本過濾的關(guān)鍵詞匹配算法研究和實現(xiàn).pdf
- 文本關(guān)鍵詞的語篇功能研究.pdf
- 聊天語言環(huán)境下關(guān)鍵詞提取算法的研究和實現(xiàn).pdf
- 基于關(guān)鍵詞匹配的網(wǎng)頁文本過濾算法的研究和實現(xiàn).pdf
- 一種基于背景知識的關(guān)鍵詞提取算法.pdf
- 基于TF算法的英文科技文獻關(guān)鍵詞提取方法研究.pdf
- 基于主題的關(guān)鍵詞提取方法對比研究
- 基于詞共現(xiàn)的關(guān)鍵詞抽取算法研究.pdf
- 基于Web挖掘的搜索關(guān)鍵詞建議研究.pdf
- 基于視覺信息的上下文廣告關(guān)鍵詞提取算法研究.pdf
評論
0/150
提交評論