

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、表示學習方法可以為自然語言處理任務學習低維的平滑特征表示,從而緩解數(shù)據(jù)稀疏問題對于基于有監(jiān)督學習的自然語言處理方法的影響。近年來,服務于如短語和句法樹等自然語言結構的表示學習方法得到了廣泛的關注。然而已有方法往往局限于對于特定類型結構的表示,而且只能使用受限的語言學標注信息從而描述能力有限。受到以上現(xiàn)狀的啟發(fā),本文考慮通過結合語言學知識和無監(jiān)督的表示學習方法,從而更好地建立自然語言的結構表示。為了實現(xiàn)這一目標,本文提出了一種新的結構表示
2、模型,并為該模型的訓練過程提出了新的方法。同時本文對于結構表示在自然語言處理中的應用進行了新的探索。
本文研究的核心在于表示自然語言結構各關鍵信息之間的合取。第一,為了說明合取思想的重要性,本文首先從最簡單的n元詞組表示的構造方法及應用開始,基于n元詞組本身是其各組成詞之間的合取這一事實,展示了詞表示的合取對于構建n元詞組表示的重要性。傳統(tǒng)的基于詞嵌入的n元詞組表示方法通過對詞嵌入向量進行拼接來表示n元詞組,然而正如本文的的分
3、析所示,這樣的方法不能反映n元詞組各組成詞之間的合取信息。本文則通過對詞嵌入進行聚類,并對離散的聚類進行合取對n元詞組進行表示。這一方法相比詞嵌入拼接得到了更好的實驗結果,從而證明了合取信息的重要性。本文進一步在訓練樣本的去噪問題中展示了上述n元詞組表示的有效性。
第二,本文提出了一個通用的結構表示模型。對于任意的輸入結構,只要我們可以將其表示為以詞為節(jié)點的圖,該模型便可為其構造結構表示。本文的這一模型首先將輸入結構分解為子結
4、構,每個子結構包含了一些詞節(jié)點(表示為詞嵌入),和一些帶有結構信息屬性的邊(表示為語言學特征)。本文的模型通過對上述兩種信息對應的向量求外積來獲得它們的合取信息,從而得到每個子結構的表示。我們對所有子結構表示求和,得到原始輸入結構的表示。在上述結構表示的基礎上,本文的模型通過一個參數(shù)張量獲得目標任務的輸出。這一模型被稱為基于豐富特征的結構表示合成模型(Feature-rich Compositional Embedding Model,
5、FCM)。本文主要關注該模型在句子級別結構的表示任務上的應用,并證明該模型在多個關系抽取任務上都獲得了業(yè)界領先的結果。
第三,上面的FCM模型當子結構包含詞節(jié)點較多,或者當張量的某個輸入視角維度較高時,會因為模型的參數(shù)過多而易于過擬合。本文通過張量低秩近似的方法,對FCM進行了近似,得到一種稱為低秩FCM的新模型(Low-RankFCM,LRFCM)。這一近似的結果是每一個視角上的輸入都被映射到更低維的向量,減小了模型的參數(shù)空
6、間。同時,通過張量的CP模式近似,我們將原本耗時的張量乘法近似為上述低維向量之間的點積。上述改進有效地減小了FCM的參數(shù)空間并提升了模型的運行速度,并在多個任務上取得了實驗結果的提升。
第四,本文提出了一種基于有標記數(shù)據(jù)和無標記數(shù)據(jù)的聯(lián)合訓練方法,用于對上述模型進行更充分的訓練。相比傳統(tǒng)的流水線式半監(jiān)督訓練方法,本文提出的方法有利于更充分地訓練未被有標記數(shù)據(jù)覆蓋的詞的詞嵌入。為了利用無標記數(shù)據(jù),本文提出了一種基于語言模型思想的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語言游戲論與自然語言量化結構.pdf
- 基于自然語言生成的關聯(lián)規(guī)則表示方法.pdf
- 基于分布表示的跨語言跨任務自然語言分析.pdf
- 基于自然語言生成的關聯(lián)規(guī)則表示方法-20130410
- 基于深度學習的中文自然語言處理.pdf
- 基于自然語言處理的空間概念建模研究.pdf
- 自然語言理解的研究.pdf
- 自然語言編程研究.pdf
- 分布式表示與組合模型在中文自然語言處理中的應用.pdf
- 基于概念圖的關聯(lián)規(guī)則的自然語言表示方法.pdf
- 受控語言與自然語言結合檢索方式研究.pdf
- 數(shù)學符號語言與自然語言的關系探微
- 自然語言信息隱藏與檢測研究.pdf
- 人類自然語言與音樂語言特質比較研究.pdf
- 訂票系統(tǒng)的自然語言接口.pdf
- 基于統(tǒng)計的自然語言處理.pdf
- 自然語言的應用研究
- 幾何自然語言理解技術.pdf
- 自然語言處理分詞文檔
- 自然語言處理分詞文檔
評論
0/150
提交評論