版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、互聯(lián)網(wǎng)技術(shù)的發(fā)展和普及使得人們可以快速的獲取信息,反過來人們獲取信息的方式也越來越依賴于互聯(lián)網(wǎng)。人們?cè)诨ヂ?lián)網(wǎng)上獲取信息的主要方式是通過文本,并且互聯(lián)網(wǎng)中的文本數(shù)目也呈現(xiàn)爆發(fā)式的增長。為了使人們更方便準(zhǔn)確的找到需要的信息,互聯(lián)網(wǎng)服務(wù)提供商需要對(duì)文本進(jìn)行分類、聚類以及排序等。這些任務(wù)通常需要將文本表示成向量形式以便應(yīng)用不同的機(jī)器學(xué)習(xí)模型。從用戶角度來說,需要根據(jù)文本的語義來對(duì)它們分類、聚類、排序等。語義是一種抽象的,高層次的特征,而現(xiàn)在廣泛
2、使用的文本的詞袋表示將文本看成相互獨(dú)立的字符的集合,而沒有考慮這些字符的語義以及它們的關(guān)聯(lián),從而導(dǎo)致詞袋表示不夠泛化。在文本向量表示中包含進(jìn)文本更高層次的語義信息成為很多學(xué)者的研究目標(biāo)?;谡Z義的文本向量表示的優(yōu)點(diǎn)是能夠?qū)⑽谋居玫途S的稠密的向量表示起來,且這種表示更加泛化,也就是說即使兩個(gè)文本在表達(dá)相同意思時(shí)使用了不同的用詞,它們的基于語義的向量表示也是相似的,而詞袋模型不能捕捉到這種相似。主題模型,包括LDA,pLSI通過模擬文本的生
3、成過程得到文本中隱含的主題,并將文本表示成在主題上的分布。深度神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到數(shù)據(jù)的不同層次的特征因此也被用來得到文本的語義表示。
本文以基于語義的文本向量表示為研究對(duì)象,開展了以下工作:
1.在無監(jiān)督情況下,本文針對(duì)詞袋模型不能考慮詞之間的相似度而導(dǎo)致表示不夠泛化的問題以及維度災(zāi)難問題提出基于詞團(tuán)的表示(BOWL)。詞團(tuán)是語義相似的詞的集合,每一個(gè)詞團(tuán)表達(dá)了一個(gè)”概念”,其相對(duì)于詞是更高層次,更抽象的特征,從而在
4、文本表示中考慮到了詞的語義信息。BOWL表示的每一個(gè)維度的值使用k-max池化操作來計(jì)算。實(shí)驗(yàn)顯示了BOWL表示的表示有效性和表示效率。
2.在有監(jiān)督情況下,復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)雖然能夠捕捉到更準(zhǔn)確的語義信息,但這種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練非常耗時(shí)并且往往依賴GPU,本文在神經(jīng)網(wǎng)絡(luò)的輸入層將詞的詞向量求平均,經(jīng)過隱藏層的非線性變換得到文本的更高層次的語義向量表示,最后在文本的向量空間對(duì)文本分類。實(shí)驗(yàn)表明這種向量平均神經(jīng)網(wǎng)絡(luò)相對(duì)于低層次的詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本語義的向量表示與建模方法研究.pdf
- 基于字詞對(duì)齊的中文字詞向量表示方法.pdf
- 基于LemplE-Ziv序列向量表示的多序列比對(duì)方法研究.pdf
- 面向圖像標(biāo)注的張量表示與語義建模方法研究.pdf
- 基于框架的情感語義表示方法研究.pdf
- 基于框架的情感語義表示方法研究
- 基于依存關(guān)系的語義表示方法研究.pdf
- 復(fù)數(shù)的向量表示數(shù)學(xué)教案
- 基于海量文本的語義構(gòu)建方法研究.pdf
- 基于狀態(tài)向量表示的通用量子線路仿真算法.pdf
- 語義Web知識(shí)表示方法的研究.pdf
- 基于張量表示的多維信息處理方法研究.pdf
- 基于可鑒別稀疏表示的視頻語義檢測方法研究.pdf
- 基于詞向量的短文本分類方法研究.pdf
- 基于潛在語義分析的單文本自動(dòng)摘要方法研究.pdf
- 基于卷積神經(jīng)網(wǎng)絡(luò)的文本表示建模方法研究.pdf
- 基于卷積神經(jīng)網(wǎng)絡(luò)的文本表示建模方法研究
- 基于支持向量機(jī)和稀疏表示的文字區(qū)域檢測方法研究.pdf
- 基于淺層語義分析的文本摘要方法研究與實(shí)現(xiàn).pdf
- 基于語義的中文文本特征降維方法研究.pdf
評(píng)論
0/150
提交評(píng)論