版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、互聯(lián)網(wǎng)上絕大多數(shù)的信息是以文本的形式保存的,互聯(lián)網(wǎng)上文本信息的爆炸式增長給信息檢索技術(shù)帶來了巨大的挑戰(zhàn),人們越來越難以快速準確地從網(wǎng)上檢索到相關(guān)信息。由于自然語言中多詞同義、一詞多義等不確定性因素存在,相同概念可以有多種不同的表述方式,被稱為“知識的非常態(tài)”。傳統(tǒng)的基于關(guān)鍵詞字符匹配的信息檢索中,參與匹配的只有外在的表現(xiàn)形式,而非它們所表達的全部概念,用戶很難簡單地用關(guān)鍵詞或關(guān)鍵詞串來真實地表達真正需要檢索的內(nèi)容。把信息檢索從關(guān)鍵詞匹配
2、的層面提高到概念(語義)的層面,從概念意義上來認知和處理檢索用戶的請求成為當前信息檢索技術(shù)的研究熱點。潛在語義分析(LSA)是一種自然語言統(tǒng)計模型,被認為是一種獲取、歸納和表述知識的方法?;贚SA的檢索模型與其它基于概念詞典或概念網(wǎng)絡(luò)的檢索模型相比,具有可計算性強、需要人的參與少等優(yōu)點。LSA通過截斷的奇異值分解建立潛在語義空間,潛在語義空間中詞語和文檔被投影在代表潛概念的維度上,進而可以提取詞語間的語義關(guān)系,呈現(xiàn)出自然語言中的語義結(jié)
3、構(gòu)。當前LSA尚存在一些理論基礎(chǔ)有待擴充和進一步的解釋,以中文LSA作為研究的主題,以中文概念檢索作為研究背景,對相關(guān)的一些難點問題,比如權(quán)重計算、潛在語義空間維度特性等進行系統(tǒng)地研究。權(quán)重計算是LSA中的重要優(yōu)化過程,傳統(tǒng)的LSA權(quán)重定義方法繼承于向量空間模型(VSM),而忽視了LSA與VSM的本質(zhì)差別。定義詞語全局權(quán)重后生成的潛在語義空間的維度突出了權(quán)重較大的詞語間的語義關(guān)系。文檔語義是由詞語構(gòu)成的,而詞語要放到文檔當中去理解。為了
4、突出那些與重要詞語間的互信息量較大的文檔對建立詞語間語義關(guān)系的作用,提出文檔全局權(quán)重的定義作為LSA權(quán)重計算的修正擴展。通過實驗檢驗各種詞語全局權(quán)重和加入文檔全局權(quán)重后的檢索效果,結(jié)果表明熵權(quán)重定義優(yōu)于其它詞語全局權(quán)重,加入文檔全局權(quán)重后,能夠在更少的維度上獲得更高的查準率。潛在語義空間中的維度代表著“潛概念”,由于沒有顯式的概念與之對應(yīng),人們一直不能深入理解潛在語義空間中的維度,LSA的應(yīng)用和發(fā)展受到限制。隨潛在語義空間被剔除維度的增
5、多,詞語間相關(guān)度發(fā)生有規(guī)律的變化。認為文檔(詞語)間“泛”意義上的相關(guān)性主要體現(xiàn)在對應(yīng)大奇異值的維度上,同時“局部”意義上的相關(guān)性主要體現(xiàn)在對應(yīng)小奇異值的維度上。進而推測潛在語義空間維度和概念粒度之間存在某種近似的、隱含的對應(yīng)關(guān)系。采用多層次文檔聚類來驗證這一結(jié)論,發(fā)現(xiàn)選用不同的潛在語義空間維度實現(xiàn)不同概念粒度下文檔聚類,獲得較好的效果。另外,在研究LSA文檔聚類中發(fā)現(xiàn),采用文檔自檢索矩陣可以很好地抑制聚類中的孤立點,大大提高了聚類準確
6、率。作為應(yīng)用研究,還研究了LSA檢索系統(tǒng)的兩類難點問題:快速檢索和語義布爾檢索。響應(yīng)時間是信息檢索的重要評價指標,LSA檢索模型無法直接采用傳統(tǒng)的關(guān)鍵詞索引方式達到快速檢索的目的。基于對潛在語義空間維度特性的研究,提出了“低維過濾”快速檢索算法,減少了相關(guān)度計算量,達到快速排除非相關(guān)文檔的目的?!皦嚎s編碼”快速檢索算法將原LSA文檔向量用近似的壓縮編碼表示,將壓縮編碼下各個維度所有可能相關(guān)度用快查表方式保存,從而避免了大量計算,“加權(quán)0
7、-1編碼”是比較典型的壓縮編碼方法。實驗表明,將“壓縮編碼”和“低維過濾”兩種算法結(jié)合使用,能夠更快速地將目標文檔鎖定在更小的范圍中。布爾表達式檢索是實現(xiàn)用戶個性化的復(fù)雜查詢必需的功能,為此借鑒模糊檢索模型研究了LSA語義布爾查詢的特殊處理,在研究過程中還引入了數(shù)據(jù)場以及勢、疊加勢、等勢線等概念作為直觀評價語義布爾檢索算法的仿真手段。深入研究了LSA權(quán)重計算、維度特性等基礎(chǔ)理論方法及其在IR應(yīng)用中的快速檢索和布爾檢索兩個難點問題。LSA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于潛在語義索引的中文文本檢索研究.pdf
- 基于潛在語義分析的智能檢索系統(tǒng).pdf
- 基于潛在語義分析的文本檢索算法研究.pdf
- 基于聚類分析的潛在語義文獻檢索.pdf
- 基于語義檢索的概念空間研究.pdf
- 基于潛在語義分析的大學概況中文問答系統(tǒng).pdf
- 基于潛在語義分析和最大熵的中文情感分析研究.pdf
- 基于多層次概念語義網(wǎng)絡(luò)結(jié)構(gòu)的中文醫(yī)學信息語義標引體系和語義檢索模型研究.pdf
- 潛在語義分析在文本信息檢索中的應(yīng)用研究.pdf
- 結(jié)合聚類的潛在語義檢索算法研究.pdf
- 基于潛在中間語義的多語言信息檢索研究.pdf
- 潛在語義的Markov網(wǎng)絡(luò)檢索模型的研究.pdf
- 基于概念的中文文本檢索研究.pdf
- 基于概念語義相似度的文本信息檢索研究.pdf
- 基于潛在語義分析的查詢擴展研究.pdf
- 基于潛在語義相關(guān)算法的電子病歷檢索的研究與應(yīng)用.pdf
- 基于概念圖的中文語義分析系統(tǒng)的研究與實現(xiàn).pdf
- 潛在語義分析在跨語言信息檢索中的應(yīng)用研究.pdf
- 基于語義概念的中文文本分類研究.pdf
- 基于潛在語義的中文文本聚類及其應(yīng)用.pdf
評論
0/150
提交評論