版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、計(jì)算機(jī)科技迅速發(fā)展、不同層次的應(yīng)用需求的涌現(xiàn),導(dǎo)致了當(dāng)今網(wǎng)絡(luò)數(shù)據(jù)的急劇增加,漢語(yǔ)有著龐大的用戶(hù)群體,如何在海量的中文信息中提取出我們想要的,有用的信息呢?第一步當(dāng)然是讓計(jì)算機(jī)能夠“懂得”我們?nèi)祟?lèi)的語(yǔ)言。漢語(yǔ)中詞是擁有獨(dú)立意義的最小語(yǔ)言單元。確切的進(jìn)行詞語(yǔ)切分是處理漢語(yǔ)這門(mén)自然語(yǔ)言的第一步,也是至關(guān)重要的一步,只有跨過(guò)這個(gè)難關(guān),才談得上更深層次的中文信息處理。
本文分析了已有分詞方法的優(yōu)劣,并采用基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的分詞方
2、法進(jìn)行分詞,取各方法之精髓,彌補(bǔ)各分詞方法力所不及之處。在發(fā)揮隱馬爾科夫模型優(yōu)勢(shì)的同時(shí),輔以有規(guī)則的詞典,提高分詞的效率與準(zhǔn)確率。接下來(lái)的重點(diǎn)與難點(diǎn)有二:其一為歧義消除;其二為對(duì)未登錄詞的識(shí)別。在初步切分處理過(guò)程中,采用最短路徑的改進(jìn)算法,本著“知之為知之,不知為不知”的原則,確定或十分有把握的才劃分出來(lái),成為一個(gè)詞語(yǔ),不能確定的則不作處理。這一步可以保留較大的可能性,交給后續(xù)步驟來(lái)處理,分層次來(lái)逐步解決問(wèn)題,盡量使最終分詞結(jié)果達(dá)到最優(yōu)
3、。此處也有最大熵思想的體現(xiàn)。未登錄詞識(shí)別主要指人名、地名以及外國(guó)人名的中文譯名的識(shí)別,漢語(yǔ)博大精深,各種名字更是五花八門(mén),人名由姓氏和名字組成,雖有規(guī)律可循,但隨意性很大,難以通過(guò)傳統(tǒng)的規(guī)則方法識(shí)別出所有的人名,地名卻相對(duì)固定,外國(guó)譯名也可以通過(guò)調(diào)查得到最常用的譯名,從而事先將其加入詞典,便可以很好的完成對(duì)二者的識(shí)別工作,本文主要針對(duì)人名這個(gè)識(shí)別難點(diǎn),提出了基于上下文環(huán)境的統(tǒng)計(jì)模型,這也源于中文姓名出現(xiàn)的時(shí)候往往都在句中扮演著某種角色,
4、所以加入這種信息,根據(jù)其與前后綴的粘合度來(lái)進(jìn)一步判定是否應(yīng)該被識(shí)別為人名。在歧義消除方面,歧義分為語(yǔ)義上的和解釋上的兩種,而交叉型歧義和組合型歧義是歧義消除主要解決的兩個(gè)問(wèn)題。交叉型歧義一般根據(jù)歧義字段本身就能得到很好的切分結(jié)果。組合型歧義相對(duì)交叉型歧義來(lái)說(shuō),需要更多的上下文信息,有時(shí)必須根據(jù)整個(gè)句子來(lái)判斷。最大熵模型是一種將上下文信息組合在一起的概率模型,而組合型歧義的消除需要借助上下文信息來(lái)判斷,因此最大熵模型適合用于解決組合型歧義
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于實(shí)例的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 中文分詞系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn).pdf
- 中文自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- dris系統(tǒng)中的中文自動(dòng)分詞模塊設(shè)計(jì)與實(shí)現(xiàn)
- 統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 中文分詞算法的研究與實(shí)現(xiàn).pdf
- 中文分詞算法的研究與實(shí)現(xiàn)
- 基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向科技文獻(xiàn)的中文分詞系統(tǒng)研究與實(shí)現(xiàn).pdf
- 基于Lucene的中文分詞器設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于CRF的中文分詞研究與實(shí)現(xiàn).pdf
- 統(tǒng)計(jì)與規(guī)則相結(jié)合的中文分詞模型設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向中文網(wǎng)絡(luò)信息檢索的自動(dòng)分詞系統(tǒng)設(shè)計(jì)與算法實(shí)現(xiàn).pdf
- 基于并行計(jì)算的中文分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 算法課程設(shè)計(jì)---中文分詞程序設(shè)計(jì)與實(shí)現(xiàn)
- 基于詞典的中文分詞算法改進(jìn)與實(shí)現(xiàn).pdf
- 基于CRFs的中文分詞算法研究與實(shí)現(xiàn).pdf
- 基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向企業(yè)信息檢索的中文分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于語(yǔ)法的分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論