版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、人名歧義是指現(xiàn)實生活中多個人物實體共用同一個人名而造成身份不確定的現(xiàn)象,這在國內(nèi)外文本中普遍存在。在信息爆炸的互聯(lián)網(wǎng)時代,人作為社會活動的主體,是構(gòu)成巨大信息網(wǎng)絡(luò)的主要元素,因此人物檢索在信息檢索中占據(jù)相當(dāng)重要的地位。目前,主流的搜索引擎對人物檢索的返回結(jié)果是包含檢索人名字串的龐大網(wǎng)頁集合,不利于用戶查找與篩選信息。人名消歧的任務(wù)是解決網(wǎng)絡(luò)傳播、信息檢索等中出現(xiàn)的人名歧義問題,主要研究如何把重名人以及不相關(guān)的網(wǎng)頁按照現(xiàn)實生活中的人物個體
2、進(jìn)行劃分,使用戶能夠快速、方便地找到需要的信息。人名消歧在熱點(diǎn)人物跟蹤與發(fā)現(xiàn)、個性化搜索、自動問答等領(lǐng)域都有廣泛的應(yīng)用,已經(jīng)成為近幾年發(fā)展起來的自然語言處理技術(shù)的一個研究熱點(diǎn)。
中文人名消歧研究起步較晚,加上中文信息處理的特殊性,目前仍然存在諸多急需解決的問題。本文研究來自網(wǎng)絡(luò)語料的中文人名消歧問題,針對不同方面存在的問題,在文本相似度和聚類方法上提出相應(yīng)的改進(jìn),目的是提高人名消歧的總體性能。以下概括了本文的主要工作:
3、 1.本文在對人名消歧進(jìn)行了充分地調(diào)研上,歸納并總結(jié)了人名消歧的基礎(chǔ)知識,包括了人名消歧的基本任務(wù)、處理步驟、目前面臨的難題、用到的相關(guān)技術(shù)等。
2.針對向量空間模型忽略特征項語義和語序的問題,結(jié)合最長公共子序列算法對文本表示模型進(jìn)行研究,提出一種基于改進(jìn)最長公共子序列的人名消歧方法。該方法首先將文本轉(zhuǎn)化為有序的特征序列,然后結(jié)合詞語相似度計算最長公共特征子序列,再利用特征項權(quán)重來構(gòu)建文本相似度矩陣,最后進(jìn)行自底向上的層次聚
4、類。實驗結(jié)果表明,相對于傳統(tǒng)的余弦值聚類方法,LCSC方法在人名消歧的P-IP指標(biāo)上,平均F值由74.2%提高到了84.9%;相對于最長公共子序列方法,總體性能也有3.7%的提高。
3.為了緩解人名消歧中聚類算法帶來的大類現(xiàn)象,提出一種結(jié)合職務(wù)或職稱信息與主題信息的聚類方法。該方法首先識別人物的職務(wù)或職稱屬性,根據(jù)人物身份的不同進(jìn)行初步劃分,并對合并的簇建立主題集。然后,按照改進(jìn)的文本相似度計算方法進(jìn)行基于主題信息的層次聚類。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向網(wǎng)絡(luò)人物搜索的中文人名消歧.pdf
- 漢語人名消歧算法研究.pdf
- 結(jié)合共指消解的跨文檔中文人名消歧研究.pdf
- 基于句義結(jié)構(gòu)和人物隱含關(guān)系的中文人名消歧研究.pdf
- 基于兩階段聚類的人名消歧算法研究.pdf
- 人名消歧關(guān)鍵技術(shù)研究.pdf
- 面向新聞領(lǐng)域的人名消歧方法研究.pdf
- Web人名消歧方法的研究與實現(xiàn).pdf
- 人名消歧關(guān)鍵技術(shù)研究與實現(xiàn).pdf
- 基于聚類的英漢人名消歧研究.pdf
- 具有中文人名識別功能的漢語自動分詞算法研究.pdf
- 中文人名跨文檔指代消解研究.pdf
- 基于層次聚類和網(wǎng)頁關(guān)系的人名消歧.pdf
- 基于條件隨機(jī)場的中文分詞消歧研究.pdf
- 漢語自動分詞和中文人名識別技術(shù)研究.pdf
- 基于混合模型的中文人名識別方法研究.pdf
- 基于語義的中文詞義消歧技術(shù)研究.pdf
- 基于統(tǒng)計的中文詞義消歧技術(shù)研究.pdf
- 文本聚類在話題檢測與人名消歧中的應(yīng)用研究.pdf
- 基于兩步聚類和查詢擴(kuò)展的人名消歧方法的研究.pdf
評論
0/150
提交評論