基于卷積神經(jīng)網(wǎng)絡(luò)的文本表示建模方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩67頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、在機(jī)器學(xué)習(xí)中,數(shù)據(jù)表示是決定后續(xù)任務(wù)性能的關(guān)鍵所在。文本是數(shù)據(jù)的一大類,文本表示是許多自然語(yǔ)言處理任務(wù)的基礎(chǔ)工作,建立文本表示模型的目的是分析和表示文本的語(yǔ)義信息,得以在文本分類、機(jī)器翻譯、自動(dòng)問(wèn)答等自然語(yǔ)言處理任務(wù)上取得更好的效果。
  在傳統(tǒng)的文本表示方法中,例如詞袋子模型,具有數(shù)據(jù)稀疏和容易產(chǎn)生維度災(zāi)難等問(wèn)題,模型的泛化能力較差。近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,各種神經(jīng)網(wǎng)絡(luò)建立的文本表示模型開(kāi)始出現(xiàn)。基于神經(jīng)網(wǎng)絡(luò)的文本表示模型是

2、將多種層次結(jié)構(gòu)的文本,通過(guò)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)映射得到低維連續(xù)的向量,所有向量都在同一個(gè)低維向量空間中,提高了模型的表示能力。同時(shí)卷積神經(jīng)網(wǎng)絡(luò)在各種神經(jīng)網(wǎng)絡(luò)中具有較好的特征選取能力。然而,現(xiàn)有神經(jīng)網(wǎng)絡(luò)文本表示模型存在著一些問(wèn)題。首先,對(duì)于不同文本中相同的詞,在神經(jīng)網(wǎng)絡(luò)中使用相同的單一的向量,在特征提取時(shí)勢(shì)必對(duì)一詞多義、同形異義等情況不能夠做出較好的區(qū)分,得到的特征不能較好地完成分類任務(wù)。然后,對(duì)于通常的神經(jīng)網(wǎng)絡(luò)模型文本表示模型,無(wú)法有效地捕獲

3、不同文本單元和可變長(zhǎng)度的組合序列的語(yǔ)義和結(jié)構(gòu)信息,對(duì)文檔級(jí)別的文本進(jìn)行處理時(shí)模型性能會(huì)大大的降低。根據(jù)上述存在的問(wèn)題,本文分別從句子和文檔兩個(gè)層次,對(duì)比了多種神經(jīng)網(wǎng)絡(luò)文本表示方法,根據(jù)現(xiàn)有文本表示方法的不足,提出了改進(jìn)后的表示模型。以下是本文所做出的主要工作:
  第一,提出了基于主題詞向量的卷積神經(jīng)網(wǎng)絡(luò)句子文本表示模型。在該模型中,針對(duì)神經(jīng)網(wǎng)絡(luò)輸入層的詞向量矩陣,利用了相同的詞在不同的文本中的語(yǔ)義信息應(yīng)該有所差異的特性,為句子文

4、本中的每個(gè)詞語(yǔ)分配所在文本對(duì)應(yīng)的主題信息,得到了每個(gè)詞的主題詞向量。同時(shí)為了不把不相關(guān)的主題信息引入到神經(jīng)網(wǎng)絡(luò)中,在中間層加入了主題轉(zhuǎn)移矩陣過(guò)濾無(wú)用的主題信息,主題轉(zhuǎn)移矩陣是根據(jù)詞與主題的相似度和概率分布計(jì)算得到。通過(guò)主題轉(zhuǎn)移矩陣將主題詞向量融入神經(jīng)網(wǎng)絡(luò)模型中,使模型可以消除詞在不同文本中的歧義。實(shí)驗(yàn)證明了得到的文本表示在句子級(jí)別的情感分類任務(wù)上有更好的表現(xiàn)。
  第二,提出基于長(zhǎng)距離關(guān)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)文檔文本表示模型。針對(duì)了通常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論