版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、再探深度學(xué)習(xí)詞向量表示,Advanced word vector representations,主講人:李澤魁,,目錄,Lecture 1 知識點(diǎn)回顧神經(jīng)概率語言模型(Bengio 2003)Word2vec (Mikolov 2013)(CBOW & Skip-gram) * (HS & NEG)詞向量的評價方法Softmax分類模型(原PPT亂入)詞向量的應(yīng)用場景,,,目錄對比,cs224d Lectu
2、re 3 目錄,Lecture 1 知識點(diǎn)回顧 (Refresher)詞向量梯度下降&隨機(jī)梯度下降 (GD & SGD)如何評測詞向量 (evaluate)Softmax分類 (softmax classification)若干習(xí)題集 (problem set),Lecture 1 知識點(diǎn)回顧神經(jīng)概率語言模型(Bengio 2003)Word2vec (Mikolov 2013)(CBOW & Sk
3、ip-gram) * (HS & NEG)詞向量的評價方法Softmax分類模型(原PPT亂入)詞向量的應(yīng)用場景,本次目錄,,,知識點(diǎn)回顧:詞向量,詞向量表示One-hot Representation“黑板”表示為 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]Distributional Representation“黑板”表示為 [0.792, ?0.177, ?0.107, 0.
4、109, ?0.542, ...]詞向量降維SVD,LSA,LDABased on lexical co-occurrenceLearning representationsPredict surrounding words of every wordEg. word2vec,,,知識點(diǎn)回顧: input & output vector,所以每個詞w都有兩個向量表示input vecter:窗口內(nèi)的中心向量(ce
5、nter vector) voutput vector:非中心詞向量(external vectors) v’例如window size = 1,句子 I like learninglike為v_likeI、learning為v’_I v’_learning,,,知識點(diǎn)回顧: Simple word2vec,Predict surrounding words in a window of length c of ever
6、y word.,,,知識點(diǎn)回顧: Word2Vec & GloVe,Word2VecEfficient Estimation of Word Representations in Vector Space. Mikolov et al. (2013)GloVeGlove: Global Vectors for Word Representation. Pennington et al. (2014)aggregate
7、d global word-word co-occurrence statistics from a corpus,,,深度學(xué)習(xí)詞向量的語言模型(引言),語言模型:判定一句話是否為自然語言傳統(tǒng)的NLP語言模型(以N-gram為例)如何計(jì)算一個句子的概率?機(jī)器翻譯:P(high winds tonite) > P(large winds tonite)拼寫糾錯:P(about fifteen minutes from) &
8、gt; P(about fifteen minuets from)語音識別:P(I saw a van) >> P(eyes awe of an)音字轉(zhuǎn)換:P(你現(xiàn)在干什么|nixianzaiganshenme) > P(你西安在干什么|nixianzaiganshenme)自動文摘、問答系統(tǒng)、... ...,,,深度學(xué)習(xí)詞向量的語言模型(引言),傳統(tǒng)的NLP語言模型(以N-gram為例)如何計(jì)算一個句子的概率
9、?問題形式化定義p(S)=p(w1,w2,w3,w4,w5,…,wn) =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)其他語言模型指數(shù)語言模型最大熵模型MaxEnt、最大熵馬爾科夫模型MEMM、條件隨機(jī)域模型CRF(平滑?語法、語義的加入)神經(jīng)概率語言模型Bengio2003、M
10、ikolov2013等,,,深度學(xué)習(xí)語言模型都有哪些?(粗略),2000年,徐偉,神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型《Can Artificial Neural Networks Learn Language Models?》用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元語言模型(即 P(wt|wt?1))的方法,,,深度學(xué)習(xí)語言模型都有哪些?(粗略),2003年,Bengio,三層的神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型《A Neural Probabilistic Language M
11、odel》,,,深度學(xué)習(xí)語言模型都有哪些?(粗略),2008,Ronan Collobert 和 Jason WestonC&W model 《Natural Language Processing (Almost) from Scratch》2008,Andriy Mnih 和 Geoffrey Hinton《A scalable hierarchical distributed language model》201
12、0,MikolovRNNLM《Recurrent neural network based language model》2012,Huang《Improving Word Representations via Global Context and Multiple Word Prototypes》,,,Bengio2003,,,,Bengio2003,,該結(jié)構(gòu)中的學(xué)習(xí)參數(shù)輸入的詞向量v(w), w屬于Dictionary
13、各層的參數(shù)WUpq各層的規(guī)模投影層:(n-1)*m,n為上下文詞數(shù),不超過5;m為詞向量維度,10~10^3隱藏層:n_hidden,用戶指定,一般為10^2量級輸出層:N,詞表大小,語料相關(guān),10^4~10^5量級most computation here (也是 word2vec 的主要優(yōu)化點(diǎn))隱藏層to輸出層的tanh輸出層的softmax,,,Bengio2003,計(jì)算公式推導(dǎo)映射層首尾拼接(n-1)*m ,記
14、作x隱藏層(未畫出)假設(shè)有h個節(jié)點(diǎn)tanh(H*x + d)隱藏層與輸出層權(quán)值矩陣為 U (|V|*h)輸出層|V|個節(jié)點(diǎn),softmax為歸一化概率 y公式為W矩陣輸入層與輸出層(跨了兩層)的直連邊矩陣,線性變換Bengio 發(fā)現(xiàn)直連邊雖然不能提升模型效果,但是可以少一半的迭代次數(shù)同時他也猜想如果沒有直連邊,可能可以生成更好的詞向量,,,ffnnlm相對于 ngram模型的優(yōu)點(diǎn),,詞語之間的相似性可以通過詞向
15、量計(jì)算下面例子中 cat 和 mouse 在ffnnlm中詞向量相近,而在ngram中cat的概率要大很多A cat is walking on the street * 10000A mouse is walking on the street * 1計(jì)算過程自帶平滑效果計(jì)算的是p(w|context),,,ffnnlm中詞向量的角色,,輸入與訓(xùn)練的參數(shù)語言模型訓(xùn)練結(jié)束 后的副產(chǎn)品,,,詞向量的歷史,詞向量表示
16、最先于1986年Hinton提出2003年Bengio發(fā)揚(yáng)光大ffnnlmFeed-forward Neural Net Language ModelSENNA、HLBL、Word2vec 、SSWE、 GloVe,,,Word2Vec所做改進(jìn)(Mikolov 2013),映射層不再是將輸入單詞的向量表示按順序排列,而是將他們相加,減少計(jì)算量去掉了tanh隱層,減少計(jì)算量,同時效果并不差目的是尋找單詞的向量表示
17、,而不是語言模型利用了上下文而不是上文了使用層次softmax使用negative sampling,,,Word2Vec所使用模型,CBOW & Skip-gram,,,(CBOW & Skip-gram) *2,兩個模型(可選其一)CBOW (Continuous Bag-Of-Words Model)Skip-gram (Continuous Skip-gram Model)兩套框架(可選其一)Hi
18、erarchical Softmax Negative Sampling,,,CBOW+HS (structure),輸入層上下文2C個詞向量(m維)隱層輸入詞向量的累加和輸出層Huffman Tree (Why?)權(quán)值:詞頻非葉節(jié)點(diǎn)(|D|-1 個) 代表某一類別的詞葉節(jié)點(diǎn)(|D|個) 代表某一個詞,,,CBOW+HS (huffman code),Huffman tree葉節(jié)點(diǎn)是單詞,對應(yīng)一個hu
19、ffman code,例如“00101”每個葉節(jié)點(diǎn)對應(yīng)一個路徑,記左子樹為1,右子樹為0投影層每維節(jié)點(diǎn)與每個非葉節(jié)點(diǎn)有連線,可以看做非葉節(jié)點(diǎn)具有不同權(quán)值theta每個節(jié)點(diǎn)分裂概率使用 邏輯回歸正例概率(左分支 1)負(fù)例概率(右分支 0),,,CBOW+HS (a train sample),Train sample (Context(“足球”), 足球)Train huffman path 1001四次分裂
20、Loss function ( 是0/1)i.e.,,,CBOW+HS (Gradient Ascent Method),GD (Gradient Descent Method)要在整個訓(xùn)練集上最小化代價函數(shù)J(θ)需要計(jì)算所有窗口里的參數(shù)梯度SGD (Stochastic Gradient Descent Method)窗口太多,迭代一輪太慢隨機(jī)梯度下降(SGD):在每一個窗口計(jì)算完畢后更新所有的參數(shù),,,CB
21、OW+HS (Gradient Ascent Method),SGD (Stochastic Gradient Descent Method)隨機(jī)梯度下降(SGD):在每一個窗口計(jì)算完畢后更新所有的參數(shù)但是在每一個窗口里,我們僅有2c-1個詞,這樣的話要更新的參數(shù)非常稀疏,解決方法保留詞向量的哈希值*更新詞嵌入矩陣L和L′的固定列如果你有上百萬個詞向量并且在做分布式訓(xùn)練的話就不需要發(fā)送大量的更新信息了,,,CBOW+HS (
22、Gradient Ascent Method),theta update (theta gradient)word_vector update (word_vector gradient),,,CBOW+HS (hierarchical),No hierarchical structure輸出層每一個詞都算一遍,時間復(fù)雜度是O(|V|)Binary treeO(log2(|V|)),,,CBOW+HS (softma
23、x),softmaxsoftmax函數(shù)是logistic(sigmoid)函數(shù)的推廣sigmoid函數(shù)只能分兩類,而softmax能分多類如果某一個z_j大過其他z,那么softmax的分量就逼近于1,其他就逼近于0,,,Skip-gram + HS,輸入層=投影層輸出層仍為二叉樹優(yōu)化目標(biāo)轉(zhuǎn)化每個詞概率相乘求導(dǎo)過程類似CBOW+HS,,,Negative Sampling,Negative Sampling
24、(簡稱NEG)理論支撐Noise Contrastive Estimation(NCE)用于提高訓(xùn)練速度、改善詞向量質(zhì)量Hierarchical softmax的替代版本采用隨機(jī)負(fù)采樣替代tree structure,,,Negative Sampling,Negative Sampling 中的 Negative Sample?以CBOW為例已知Context(w) 和 詞w正樣本為 詞w負(fù)樣本為 除去詞w之外的所有詞
25、Negative Sampling的依據(jù)負(fù)樣本太多了高頻詞更易被采樣帶權(quán)采樣問題*,,,CBOW + Negative Sampling,約定:上下文Context(w) 和 詞w,優(yōu)化目標(biāo)其中i.e.增大正樣本概率(前半部分)減少負(fù)樣本概率(后半部分)求導(dǎo)、更新參數(shù)略,,,Skip-gram + Negative Sampling,優(yōu)化目標(biāo)其中i.e.同樣,增大正樣本概率(前半部分)減少負(fù)
26、樣本概率(后半部分)求導(dǎo)、更新參數(shù)略,,,詞向量評價(翻譯版),Intrinsic在一個特定的子任務(wù)(后幾頁)中進(jìn)行評測計(jì)算迅速有助于理解相關(guān)的系統(tǒng)不太清楚是否有助于真實(shí)任務(wù)除非和實(shí)際的NLP任務(wù)的相關(guān)性已經(jīng)建立起來Extrinsic 在一個真實(shí)任務(wù)中進(jìn)行評測需要花很長的實(shí)際來計(jì)算精度不太清楚是否是這個子系統(tǒng)或者其他子系統(tǒng)引起的問題如果用這個子系統(tǒng)替換原有的系統(tǒng)后獲得精度提升–>有效(Winning!),,,詞
27、向量評價 (Intrinsic - Word Vector Analogies),通過一些語義或語法類比問題上的余弦相似度距離的表現(xiàn)來評測詞向量問題:如果信息符合但不是線性的怎么辦?,,,詞向量評價 (Intrinsic -Semantic),句法理論評價,,,詞向量評價 (Intrinsic - Syntactic),,,,詞向量評價 (Intrinsic - Sem. & Syn.),,,,詞向量評價 (Sem. &am
28、p; Syn. using GloVe),,非對稱上下文(僅有左側(cè)的單詞)并不是很好最佳的向量維度:300左右,之后變化比較輕微對于GloVe向量來說最佳的窗口長度是8,,,詞向量評價 (Sem. & Syn. using GloVe),,訓(xùn)練的時間對于GloVe來說有幫助Word2vec不一定,,,詞向量評價 (Sem. & Syn. using GloVe),,訓(xùn)練數(shù)據(jù)Wiki比新聞?wù)Z料更相關(guān),,,如何應(yīng)對
29、歧義問題 (好像有點(diǎn)跑題),,我們希望一個詞向量能捕獲所有的語義信息(例如run即是noun也是verb),但是這樣的話詞向量會被拉向兩個方向?qū)υ~窗口進(jìn)行聚類,并對每個單詞詞保留聚類標(biāo)簽,例如bank1, bank2等,,,如何應(yīng)對歧義問題 (好像有點(diǎn)跑題),,,,,詞向量評價 (Intrinsic - correlation),,,,詞向量評價 (Extrinsic),,任何詞向量可以輔助的NLP任務(wù)越來越多的領(lǐng)域
30、,,,簡單的單詞的分類問題 (原PPT亂入),,從深度學(xué)習(xí)的詞向量中最大的獲益是什么?*有能力對單詞進(jìn)行精確的分類國家類的單詞可以聚和到一起因此可以通過詞向量將地名類的單詞區(qū)分出來可以在其他的任務(wù)中將單詞的任意信息融合進(jìn)來可以將情感分析問題映射到單詞分類中在語料庫中尋找最具代表性的正/負(fù)例單詞,,,分類問題 引出的 softmax 分類(1),,softmax分類在給定詞向量x的情況下獲得y類的概率,,,分類問題 引出的
31、softmax 分類(2),,損失函數(shù) (Loss function) 代價函數(shù) (Cost function)目標(biāo)函數(shù) (Objective function)Softmax的損失(Loss): 交叉熵(Cross Entropy)假設(shè)分布是:p = [0,…,0,1,0,…0], 對應(yīng)計(jì)算的概率分布是q交叉熵,可以寫成熵和兩個分布的KL散度之和,,,簡單的單詞的分類問題,,例子:情感分析兩個選擇:方案1:僅僅訓(xùn)練so
32、ftmax權(quán)重W方案2:同時訓(xùn)練詞向量問題:訓(xùn)練詞向量的優(yōu)點(diǎn)和缺點(diǎn)是什么Pro: 更好的適應(yīng)訓(xùn)練數(shù)據(jù)Con: 更差的泛化能力,,,簡單的單詞的分類問題 -訓(xùn)練的詞向量的情感分享可視化,,,FunEnjoyableWorthRightBlarblar Blarblardullboring,,,最后:詞向量的應(yīng)用匯總,,NLP任務(wù)挖掘詞之間的關(guān)系,word anal
33、ogy,譬如同義詞、上位詞將詞向量作為特征應(yīng)用到其他機(jī)器學(xué)習(xí)任務(wù)中,例如作為文本分類的feature,NER、CHK等任務(wù)機(jī)器翻譯Relational extractionConnecting images and sentences,image understanding非NLP任務(wù)將qq群作為doc,用戶作為word,訓(xùn)練user distributed representation,挖掘相似user將query se
34、ssion作為doc,query作為word,訓(xùn)練query distributed representation,挖掘相似query將不同用戶點(diǎn)擊行為作為doc,單個點(diǎn)擊作為word,訓(xùn)練product distributed representation,挖掘相似product,,,參考文獻(xiàn)(按照PPT頁面順序),Socher,CS224d Slides fandywang,斯坦福大學(xué)自然語言處理 Language Modeli
35、nglicstar,Deep Learning in NLP (一)詞向量和語言模型falao_beiliu,深度學(xué)習(xí)word2vec筆記hisen,word2vec傻瓜剖析Mikolov,word2vec source codeshujun_deng,Deep Learning實(shí)戰(zhàn)之word2vec @網(wǎng)易有道皮果提,word2vec 中的數(shù)學(xué)原理詳解楊超,Google 開源項(xiàng)目 word2vec 的分析?@知乎火光搖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多層感知器
- 多層感知器學(xué)習(xí)算法研究.pdf
- 基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 感知器訓(xùn)練算法及其在人臉檢測中應(yīng)用的研究.pdf
- 多層感知器的模糊線性分析及應(yīng)用.pdf
- 基于多層感知器調(diào)制信號識別的研究.pdf
- 基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于成本最小的無線感知器網(wǎng)絡(luò)部署方法研究.pdf
- 帶閾值的模糊感知器的收斂性.pdf
- 多層感知器神經(jīng)網(wǎng)絡(luò)的局部泛化誤差模型.pdf
- 基于物聯(lián)網(wǎng)的礦山環(huán)境感知器研究與設(shè)計(jì).pdf
- 基于振動觸覺反饋的便攜式環(huán)境信息感知器.pdf
- 連續(xù)感知器學(xué)習(xí)算法的有限收斂性及連續(xù)距離轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò).pdf
- 漢英感知器官詞匯對比研究.pdf
- 多層感知器網(wǎng)絡(luò)在彩色車牌圖像分割和識別中的應(yīng)用.pdf
- 用于產(chǎn)品數(shù)字樣機(jī)設(shè)計(jì)測試的能耗感知器研發(fā).pdf
- 用于產(chǎn)品數(shù)字樣機(jī)設(shè)計(jì)測試的安全感知器研究.pdf
- 公交車感知器優(yōu)化設(shè)計(jì)及信息采集分析系統(tǒng)的研究與開發(fā).pdf
- 微創(chuàng)手術(shù)機(jī)器人力感知器數(shù)字信號處理方法研究及動態(tài)測試.pdf
- 微創(chuàng)手術(shù)機(jī)器人力感知器模擬信號處理電路的設(shè)計(jì)與解耦方法研究.pdf
評論
0/150
提交評論