版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四節(jié) 詞性標(biāo)注的方法,授課人:徐艷華授課時(shí)間:2006年11月20日,內(nèi)容摘要,基于規(guī)則的方法基于統(tǒng)計(jì)的方法規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,一、基于規(guī)則的標(biāo)注方法,(一) 標(biāo)注規(guī)則的類型 基于規(guī)則的標(biāo)注方法主要是利用上下文的詞語(yǔ)、詞類等信息來(lái)確定當(dāng)前詞(兼類詞)的詞性。按照所作用的對(duì)象,標(biāo)注規(guī)則可分為以下幾種:第一,針對(duì)特定詞的,作用對(duì)象往往是特定的高頻兼類詞,如“了”(助詞兼語(yǔ)氣詞兼動(dòng)詞),可根據(jù)前面出現(xiàn)的是否謂詞,后面是
2、否句尾標(biāo)志等上下文信息來(lái)選擇合適的標(biāo)記。,,第二,針對(duì)特定兼類模式的,例如,“動(dòng)詞-形容詞”兼類詞前面出現(xiàn)程度副詞時(shí)應(yīng)選擇形容詞標(biāo)記。第三,針對(duì)特定詞類序列的,例如v{p,u,a}表示三種合法的詞類序列,即“動(dòng)詞+介詞”、“動(dòng)詞+助詞”和“動(dòng)詞+形容詞”,文本中的詞類序列為“有/v+怪/a-d-v+招/n”,其中“怪”是當(dāng)前詞,兼屬形容詞、副詞和動(dòng)詞,跟規(guī)則中的詞類序列匹配,可知應(yīng)選擇標(biāo)記a,即把“怪”標(biāo)注為形容詞。,,在一個(gè)基于規(guī)則
3、的標(biāo)注系統(tǒng)中,我們總是希望每條規(guī)則的效用都比較高。規(guī)則的效用可從兩個(gè)方面來(lái)衡量,即規(guī)則的正確率和覆蓋率。正確率可表示為規(guī)則成功次數(shù)除以規(guī)則運(yùn)用次數(shù);覆蓋率可表示為規(guī)則運(yùn)用次數(shù)除以兼類詞的總詞次。顯然,針對(duì)特定詞的消歧規(guī)則,其正確率一般較高,但覆蓋率可能較低;針對(duì)特定兼類模式或特定詞類序列的消歧規(guī)則,其覆蓋率較高,但正確率可能較低。,,規(guī)則集較大時(shí),規(guī)則之間的沖突是難免的。例如,“數(shù)詞+量詞”和“副詞+介詞”都是合法的詞類序列,那么,文本
4、中的“一把”到底應(yīng)標(biāo)注為哪種詞類序列呢?此時(shí),應(yīng)該根據(jù)規(guī)則的正確率、覆蓋率等因素來(lái)確定規(guī)則使用的先后順序。,(二)基于規(guī)則的標(biāo)注方法的優(yōu)點(diǎn),可以充分而有效率地利用各種上下文信息 。所謂“充分”,是說(shuō)無(wú)論相關(guān)詞跟當(dāng)前詞相隔多遠(yuǎn)都可以利用;所謂“有效率”,是說(shuō)可以只把跟當(dāng)前詞消歧有關(guān)的詞寫進(jìn)規(guī)則的條件部分。 不存在數(shù)據(jù)稀疏問(wèn)題,標(biāo)注正確率跟訓(xùn)練語(yǔ)料無(wú)關(guān)。,(三)基于規(guī)則的標(biāo)注方法的缺點(diǎn),建立規(guī)則集需要專家知識(shí),投入較多的人力;不容易寫出
5、覆蓋率低但正確率高的規(guī)則,這種規(guī)則表達(dá)顆粒度小的語(yǔ)言知識(shí),小顆粒度的語(yǔ)言知識(shí)大量存在并且往往被專家所忽視。,二、基于統(tǒng)計(jì)的標(biāo)注方法,先來(lái)看一個(gè)例子,“把門鎖好”是一個(gè)長(zhǎng)度為4的詞串,其中“把”是介詞(p)兼量詞(q)兼動(dòng)詞(v)兼名詞(n),“門”是名詞(n)兼量詞(q),“鎖”是名詞(n)兼動(dòng)詞(v),“好”是形容詞(a)兼動(dòng)詞(v)兼副詞(d)。用W表示詞串,C表示對(duì)應(yīng)的詞性標(biāo)記串,顯然,由于兼類詞的存在,C不是唯一的,原則上可以有
6、4×2×2×3=48種可能的標(biāo)記串。,,基于統(tǒng)計(jì)的詞性標(biāo)注方法,可以看成是從多條路徑中選擇一條最佳路徑的過(guò)程。一條路徑由若干條邊組成,每條邊都有一個(gè)對(duì)應(yīng)的權(quán)值。這個(gè)權(quán)值如果是一次狀態(tài)轉(zhuǎn)移的概率乘以詞典概率,那么最佳路徑就是各邊權(quán)值乘積最大的路徑;如果是轉(zhuǎn)移概率的負(fù)對(duì)數(shù)加詞典概率的負(fù)對(duì)數(shù),那么最佳路徑就是各邊權(quán)值之和最小的路徑。為了避免乘法的下溢,一般采用后一種權(quán)值來(lái)計(jì)算,這種權(quán)值叫做“費(fèi)用”。,,例如,“把
7、門鎖好”有48條路徑,每條路徑都是由四條邊組成,每計(jì)算一條路徑的費(fèi)用需要做3次乘法、3次加法和3次對(duì)數(shù)運(yùn)算,最后還要做47次比較運(yùn)算,算法的效率太低。這個(gè)問(wèn)題可用多階段決策過(guò)程的動(dòng)態(tài)規(guī)劃方法來(lái)解決。最佳路徑有一個(gè)重要特征:如果從起點(diǎn)A經(jīng)過(guò)P,H到達(dá)終點(diǎn)G是一條最佳路徑,那么,由P出發(fā)經(jīng)過(guò)H到達(dá)終點(diǎn)G所走的這條子路徑,對(duì)于從P出發(fā)到終點(diǎn)G的所有可能的不同路徑來(lái)說(shuō),必定也是最佳路徑。,,換言之,全局最佳的路徑必定局部最佳(但局部最佳未必全局
8、最佳)。這一特征使得我們可以逐段計(jì)算最佳子路徑,每增加一個(gè)詞,都把它跟前面計(jì)算的最佳路徑連接起來(lái),到最后一段時(shí),只要看看作為終點(diǎn)的詞誰(shuí)的累計(jì)費(fèi)用最小就行了。這樣我們甚至不需要把所有的可能路徑都列出來(lái)再尋找最佳路徑。仍然用前面的例子來(lái)加以說(shuō)明:,,把 門 鎖 好 p ao
9、q n n v v q v d n,,,,,,,,,,,,,,,,,,,,,,,步驟一:計(jì)算從起始結(jié)點(diǎn)o到“把”的4個(gè)結(jié)點(diǎn)的費(fèi)用,其累計(jì)費(fèi)用就是每條邊的費(fèi)用,“把”的每個(gè)結(jié)點(diǎn)的最佳前驅(qū)都是起始結(jié)點(diǎn) ;,,步驟二:計(jì)算從“把”的每個(gè)結(jié)點(diǎn)到“門”的每個(gè)結(jié)點(diǎn)的費(fèi)用,共有8條
10、邊,每條邊的累計(jì)費(fèi)用各是由兩條邊的費(fèi)用相加而成。“門”的每個(gè)結(jié)點(diǎn)有4條邊,其中累計(jì)費(fèi)用最小的那條邊所對(duì)應(yīng)的“把”的某個(gè)結(jié)點(diǎn)就是“門”的這個(gè)結(jié)點(diǎn)的最佳前驅(qū)。例如,“門(n)”的最佳前驅(qū)可能是“把(p)”,按此方法找出“鎖(n)”、“鎖(v)”和“好(a)”、“好(v)”、“好(d)”的最佳前驅(qū)和最小累計(jì)費(fèi)用。,,步驟三:比較最后一個(gè)詞(“好”)的每個(gè)結(jié)點(diǎn)的最小累計(jì)費(fèi)用,在這3個(gè)最小累計(jì)費(fèi)用中選擇最小的一個(gè),確定其所對(duì)應(yīng)的結(jié)點(diǎn)為最佳路徑的尾
11、結(jié)點(diǎn),例如可能是“好(a)”。步驟四:從尾結(jié)點(diǎn)出發(fā)向串首掃描,找出每個(gè)結(jié)點(diǎn)的最佳前驅(qū),即可得到最佳路徑。例如,“好(a)”的最佳前驅(qū)可能是“鎖(v)”,“鎖(v)”的最佳前驅(qū)可能是“門(n)”,“門(n)”的最佳前驅(qū)可能是“把(p)”,于是得到最佳路徑“把/p門/n鎖/v好/a”。,基于統(tǒng)計(jì)的標(biāo)注方法的優(yōu)點(diǎn),能通過(guò)機(jī)器學(xué)習(xí)而自動(dòng)獲取大量顆粒度小的知識(shí),開發(fā)標(biāo)注系統(tǒng)所需的人力費(fèi)用小,一般有10萬(wàn)詞次的訓(xùn)練語(yǔ)料就可以了。 從目前所報(bào)
12、道的結(jié)果來(lái)看,這種方法的標(biāo)注正確率大大高于基于規(guī)則的標(biāo)注方法。,基于統(tǒng)計(jì)的標(biāo)注方法的缺點(diǎn),第一,難以處理長(zhǎng)距離依賴現(xiàn)象。 第二,總是忽略小概率現(xiàn)象。 第三,由于統(tǒng)計(jì)方法得出的結(jié)果是不確定的,涉及的因素很多,因此無(wú)論標(biāo)注正確與否,都很難從語(yǔ)言學(xué)角度給出直觀的解釋,這給統(tǒng)計(jì)方法的改進(jìn)帶來(lái)一定的困難。,三、基于規(guī)則與基于統(tǒng)計(jì)相結(jié)合的方法,Eric Brill(1995)用統(tǒng)計(jì)方法建立詞性標(biāo)注的校正規(guī)則。其基本思想是,先建立一定規(guī)模的訓(xùn)練語(yǔ)
13、料,然后去掉其中的詞性標(biāo)記,重新進(jìn)行標(biāo)注(初始標(biāo)注)。接著給定一些規(guī)則模板(例如模板中最多出現(xiàn)上下文中的3個(gè)詞,每個(gè)詞可利用其詞形和/或詞性標(biāo)記),計(jì)算機(jī)逐一檢查初始標(biāo)注跟訓(xùn)練語(yǔ)料的不一致之處,根據(jù)預(yù)定模板建立校正規(guī)則。,,統(tǒng)計(jì)每條校正規(guī)則的得分(命中一次得一分,否則減一分),最后選定一條得分最高的規(guī)則,將它加進(jìn)校正規(guī)則集,并對(duì)全部訓(xùn)練語(yǔ)料重新標(biāo)注以提高標(biāo)注正確率。如此循環(huán),直到不能提高標(biāo)注正確率為止。所得到的校正規(guī)則集可用來(lái)標(biāo)注訓(xùn)練集
14、之外的語(yǔ)料。,,周強(qiáng)(1995)先用規(guī)則標(biāo)注然后用統(tǒng)計(jì)方法標(biāo)注。張民(1998)則是先用統(tǒng)計(jì)方法后用規(guī)則標(biāo)注,其特點(diǎn)是用置信區(qū)間評(píng)價(jià)統(tǒng)計(jì)結(jié)果,高于閾值者給出唯一候選,其余部分則用基于規(guī)則的方法來(lái)標(biāo)注。,,兩種基本方法相結(jié)合的關(guān)鍵問(wèn)題是:如何發(fā)揮兩種方法的各自優(yōu)勢(shì),避免各自的缺點(diǎn)。統(tǒng)計(jì)要有一定的語(yǔ)言學(xué)知識(shí)作為指導(dǎo),不能盲目統(tǒng)計(jì)。例如,一般都把前后各N個(gè)詞作為觀察窗口,就是一種盲目統(tǒng)計(jì)。,,對(duì)于漢語(yǔ)詞性標(biāo)注來(lái)說(shuō),不同的兼類詞有不同的語(yǔ)法依
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第四節(jié)、農(nóng)藥的施用方法
- 第四節(jié) 投票
- 第四節(jié)叩診
- 第四節(jié) 基因定位常用的方法
- 第四節(jié)句法成分
- 第四節(jié) 句法成分
- 04第四節(jié)-西瓜
- 第四節(jié)旅游安全
- 第四節(jié) 潮流推算
- 第四節(jié) 用藥護(hù)理
- 第四節(jié) 大運(yùn)批斷方法
- 第四節(jié) 世界的氣候
- 第四節(jié) 函數(shù)的微分
- 第四節(jié)水果
- 第四節(jié)扣件系統(tǒng)
- 第四節(jié) 超聲檢查
- 第四節(jié)俄羅斯
- 第四節(jié)--俄羅斯
- 第四節(jié) 新型螺桿
- 第四節(jié) 肝硬化
評(píng)論
0/150
提交評(píng)論