版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、1AutomaticAutomaticRecognitionRecognitionofofChineseChineseUnknownUnknownWdsWdsUsingUsingHMMHMM基于角色標(biāo)基于角色標(biāo)注的中國人名自動識別研究注的中國人名自動識別研究張華平.劉群(LiuQun)Liuqun@ict.中國科學(xué)院計算技術(shù)研究所軟件實驗室北京100080摘要:摘要:中國人名的識別是中文未登錄詞識別的重點和難點,目前的解決方案自身存在一
2、些本質(zhì)的缺陷,實際效果還難以滿足實際需求。本文提出了一種基于角色標(biāo)注的中國人名自動識別方法。即:利用從語料庫中自動抽取的角色信息,采取Viterbi算法對切詞結(jié)果進行角色標(biāo)注,在角色序列的基礎(chǔ)上,進行模式最大匹配,最終實現(xiàn)中國人名的識別。通過對16M字節(jié)真實語料庫的封閉與開放測試,該方法取得了接近98%的召回率,準(zhǔn)確率也得到了實際提高。實驗數(shù)據(jù)證明:該方法是行之有效、能夠成功解決中國人名的自動識別問題。關(guān)鍵詞:關(guān)鍵詞:未登錄詞識別;中國
3、人名;角色標(biāo)注1.1.引言引言詞語分析是中文自然語言處理的前提和基礎(chǔ),中文詞語分析的研究已經(jīng)取得較大的進展,但在處理含有未登錄詞的文本時,其結(jié)果一般難以滿足實際的需求。未登錄詞的錯誤識別,不僅僅使自身無法正確識別召回,而且往往與前后的其他字詞交叉組合,嚴(yán)重地影響其他詞的正確識別,從而直接的降低了詞語分析乃至整個句子分析的正確率。未登錄詞的自動識別已經(jīng)成為了中文詞語分析質(zhì)量的實際瓶頸。中國人名在未登錄詞占有較大比重,也是未登錄詞識別的主要
4、難點。根據(jù)我們對人民日報1998年1月的語料庫(共計2305896字)進行的統(tǒng)計,每100字中含未登錄詞1.192個(不計數(shù)詞、時間詞),其中48.6%的是中國人名。而中國人名的召回率僅為68.77%[1],其切分錯誤高達50%以上,對所有分詞錯誤進行統(tǒng)計,姓名錯誤占了將近90%[2]。因此中國人名的自動識別是未登錄識別問題的重點和關(guān)鍵,中國人名識別問題的解決也會改善漢語詞語分析、句法分析乃至中文信息處理的最終質(zhì)量。1.11.1中國人名
5、自動識別的困難中國人名自動識別的困難中國人名數(shù)量眾多,規(guī)律各異,有很大的隨意性。其主要的困難在于:1中國人名構(gòu)成的多樣性;2人名內(nèi)部相互成詞;3人名與其上下文組合成詞;4歧義理解。1中國人名構(gòu)成的多樣性:(1)姓名:張華平、張浩、西門吹雪、諸葛亮;(2)有名無姓:“春花點點頭”;“杰,你好嗎?”(3)有姓無名:“劉稱趙已離開江西”;(4)姓前后綴劉總、張老、小李、邱某;(5)港臺已婚婦女:范徐麗泰、彭張青。2人名內(nèi)部相互成詞,指的是姓與
6、名、名與名之間本身就是一個已經(jīng)被收錄的詞。如:[王國]維、[高峰]、[汪洋]、張[朝陽]。根據(jù)我們對80000條中國人名的統(tǒng)計,內(nèi)部成詞的比例高達8.49%。3人名與其上下文組合成詞的情況包括人名的首部(姓或名的首字)與人名的上文成詞和人名的尾部(姓或名的首字)與人名的下文成詞。例如:“這里[有關(guān)]天培的壯烈”;32、基于角色標(biāo)注的中國人名自動識別方法、基于角色標(biāo)注的中國人名自動識別方法2.12.1中國人名的構(gòu)成角色中國人名的構(gòu)成角色中
7、國人名的內(nèi)部構(gòu)成與上下文比較集中,而且有一定的規(guī)律性。在83077條人名庫中,姓氏用字僅有820個,其中王、張、李三大姓,就占了20%;20631個單名中,單名用字為1489個雙名的首字與末用字?jǐn)?shù)均不到2000個。人名的上下文種類也很有限。上文一般是稱呼、職銜以及一些連詞、動詞,如:“總統(tǒng)”、“主任”、“打”、“向”等。下文大多是像“說”、“表示”、“主席”之類的詞。我們將人名的內(nèi)部組成、上下文等與人名識別相關(guān)的成分稱為中國人名的構(gòu)成角
8、色(為行文方便,以下簡稱角色)。我們利用角色表(見表1)對“館內(nèi)陳列周恩來和鄧穎超生前使用過的物品?!边M行角色標(biāo)注,其結(jié)果為:“館A內(nèi)A陳列K周B恩C來D和M鄧B穎C超生V前A使用A過A的A物品A。A”編碼編碼代碼代碼意義意義例子例子BPf姓氏張華平先生CPm雙名的首字張華平先生DPt雙名的末字張華平先生EPs單名張浩說:“我是一個好人”FPpf前綴老劉、小李GPlf后綴王總、劉老、肖氏、吳媽、葉帥KPp人名的上文又來到于洪洋的家。LP
9、n人名的下文新華社記者黃文攝MPpn兩個中國人名之間的成分編劇邵鈞林和稽道青說UPpf人名的上文和姓成詞這里有關(guān)天培的壯烈VPnw人名的末字和下文成詞龔學(xué)平等領(lǐng)導(dǎo)鄧穎超生前XPfm姓與雙名的首字成詞王國維、YPfs姓與單名成詞高峰、汪洋ZPmt雙名本身成詞張朝陽APo以上之外其他的角色表1中國人名的構(gòu)成角色表2.22.2角色自動標(biāo)注與中國人名識別角色自動標(biāo)注與中國人名識別既然含中國人名的句子包含姓、名、上下文等構(gòu)成角色,那么換一個角度說
10、:我們就可以通過對構(gòu)成角色進行標(biāo)注通過對角色序列簡單的模式匹配來實現(xiàn)中國人名的識別。而中國人名構(gòu)成角色的標(biāo)注實質(zhì)是一個簡單的詞性標(biāo)注過程。我們采用的是Viterbi算法[9]進行角色自動標(biāo)注。即:從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注作為最終標(biāo)注結(jié)果。其理論及推導(dǎo)如下:我們假定W是分詞后的Token序列(即未登錄詞識別前的分詞結(jié)果),T是W某個可能的角色標(biāo)注序列.其中T#為最終標(biāo)注結(jié)果,即概率最大的角色序列。則有:W=(w1w2…w
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于最大熵模型的中國人名自動識別.pdf
- 音譯外國人名自動識別的研究.pdf
- 中國人名的成熟期
- 基于CRF的蒙古文人名自動識別.pdf
- 中國人來養(yǎng)活中國人
- 中國人重傷結(jié)局預(yù)測模型的研究.pdf
- 基于arima模型的中國人均gdp時間序列分析
- 基于隱馬爾可夫模型的自動和弦識別.pdf
- 基于leslie模型的中國人口紅利期分析
- 基于MATLAB的房顫自動識別.pdf
- 中國人口增長預(yù)測模型
- 自動識別技術(shù)
- 基于中國人熱特性的多節(jié)點熱舒適模型.pdf
- 基于HMM的車牌自動識別技術(shù)的研究.pdf
- 焦慮的中國人
- 這樣的中國人
- 中國人的姓名
- 漢語基本名詞短語的自動識別模型.pdf
- 車型自動識別研究.pdf
- 中國人的性格
評論
0/150
提交評論