版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、當(dāng)前互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息和進(jìn)行事務(wù)活動的一個重要平臺。隨著互聯(lián)網(wǎng)上各種數(shù)據(jù)和應(yīng)用資源的快速增長,搜索引擎成為人們從海量的網(wǎng)上資源中快速準(zhǔn)確地獲取信息的必要工具。用戶通過提交查詢到搜索引擎表達(dá)他們的信息需求,搜索引擎則根據(jù)對查詢的分析提供給用戶需要的檢索結(jié)果,查詢是用戶和搜索引擎之間必要的信息傳遞方式。為了使搜索引擎能夠準(zhǔn)確地理解查詢中表達(dá)的信息需求,則需要開展查詢自動分析處理技術(shù)的研究。
命名實(shí)體查詢是一類重要的查詢,在
2、搜索引擎查詢中占有很高的比例,并且具有一些自身特點(diǎn),研究命名實(shí)體查詢的相關(guān)處理技術(shù)能夠使搜索引擎更好地分析用戶的檢索意圖,提供給用戶準(zhǔn)確的檢索結(jié)果,改善用戶的檢索體驗(yàn)。命名實(shí)體查詢處理技術(shù)通常包括獲取查詢中的語義片段,識別出查詢中包含的實(shí)體,分析命名實(shí)體查詢的檢索意圖等方面的研究。據(jù)此,本文從以下幾個方面開展了命名實(shí)體查詢處理的相關(guān)技術(shù)研究。
1、基于單語詞對齊模型的無指導(dǎo)查詢自動切分。查詢切分是一項(xiàng)基礎(chǔ)和必要的查詢處理工作,
3、是將查詢從字符序列切分出詞匯或短語等語義單元的過程。由于查詢中出現(xiàn)的詞匯規(guī)模巨大并且包含許多不規(guī)范的詞匯,有指導(dǎo)的方法需要人工標(biāo)注大量的訓(xùn)練語料,使其不能很好地適應(yīng)查詢切分的任務(wù)。本文提出了一種基于單語詞對齊模型的無指導(dǎo)查詢切分方法。該方法僅利用查詢?nèi)罩咀詣佑?xùn)練查詢切分模型,并在模型中能夠結(jié)合字符的共現(xiàn)信息、位置信息以及繁殖度信息,獲得了較好的查詢切分效果。本文在查詢詞項(xiàng)切分的基礎(chǔ)上進(jìn)一步對查詢進(jìn)行了層次化切分,將查詢表示為切分片段的樹
4、狀結(jié)構(gòu),查詢層次化切分結(jié)果可以表示出查詢中哪些切分片段之間的關(guān)系更為緊密。實(shí)驗(yàn)結(jié)果顯示與已有的切分方法相比,本文方法獲得了更好的查詢切分效果。
2、基于圖上隨機(jī)游走模型的查詢?nèi)罩局忻麑?shí)體挖掘。查詢?nèi)罩臼且粋€包含大量命名實(shí)體的數(shù)據(jù)資源。從查詢?nèi)罩局型诰虺龅拿麑?shí)體,更加符合用戶構(gòu)造查詢時使用命名實(shí)體的習(xí)慣,并且查詢?nèi)罩緯粩喔?其中記錄了一些新出現(xiàn)的實(shí)體名稱,這使得研究查詢?nèi)罩局忻麑?shí)體挖掘?qū)τ谒阉饕嫣幚砻麑?shí)體查詢更具有
5、實(shí)際意義。本文中采用了一種弱指導(dǎo)的方法進(jìn)行命名實(shí)體挖掘,其中利用了少量的屬于目標(biāo)類別的命名實(shí)體名稱作為種子,使用從查詢?nèi)罩局谐槿〕龅暮蜻x命名實(shí)體、查詢中命名實(shí)體的上下文模板以及用戶點(diǎn)擊URL構(gòu)造三分圖,采用圖上的隨機(jī)游走算法獲取目標(biāo)類別的命名實(shí)體。實(shí)驗(yàn)結(jié)果顯示,本文方法能夠有效結(jié)合查詢?nèi)罩局械拿麑?shí)體相關(guān)信息,提高查詢?nèi)罩局蝎@取命名實(shí)體的準(zhǔn)確率。
3、基于在線百科的命名實(shí)體同義屬性短語獲取。在命名實(shí)體的屬性短語中,描述實(shí)體同一
6、屬性的不同表達(dá)形式的短語,被稱為同義屬性短語。獲取實(shí)體的同義屬性短語對命名實(shí)體查詢的檢索意圖分析將有所幫助。在命名實(shí)體查詢中,用戶通常使用屬性短語構(gòu)建查詢,表達(dá)對實(shí)體屬性值的需求意圖。本文從在線百科中獲取命名實(shí)體的屬性短語,并采用了分類的框架結(jié)合了多種特征去識別出其中的同義屬性短語。據(jù)我們了解,本文方法是首次提出利用在線百科獲取同義屬性短語的研究。實(shí)驗(yàn)結(jié)果表明,在線百科是獲取實(shí)體同義屬性短語的有效資源,并且本文提出的方法能夠有效地獲取大
7、量的同義屬性短語。
4、命名實(shí)體查詢的檢索意圖識別。在本文中包括基于分類的查詢檢索意圖識別和更細(xì)粒度的基于查詢檢索模式的檢索意圖識別兩個部分。查詢意圖分類可以限制檢索結(jié)果的類別空間,提高檢索準(zhǔn)確率。在查詢意圖分類中,采用融合多種資源信息的方法進(jìn)行分類,其中根據(jù)對查詢文本,查詢?nèi)罩疽约盎ヂ?lián)網(wǎng)檢索結(jié)果的分析,獲取了有效的查詢意圖分類特征。本文進(jìn)一步在查詢意圖分類模型識別出的信息類和事務(wù)類命名實(shí)體查詢中,抽取用戶經(jīng)常使用的查詢檢索模
8、式,并將具有相似檢索意圖的查詢檢索模式進(jìn)行聚類。查詢檢索模式可以用來匹配用戶提交的查詢,幫助搜索引擎準(zhǔn)確地分析查詢的檢索意圖。本文中采用了基于圖模型方法和基于相似度方法級聯(lián)地進(jìn)行命名實(shí)體查詢的檢索模式獲取。實(shí)驗(yàn)結(jié)果顯示本文方法在多個實(shí)體類別上均有效地獲取了查詢檢索模式。
綜上所述,本文開展了命名實(shí)體查詢處理一些關(guān)鍵技術(shù)的研究工作,其中有些查詢處理技術(shù)出于更廣泛適應(yīng)性的考慮,其面向的對象不僅是命名實(shí)體查詢,也可以應(yīng)用到其他查詢上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 搜索引擎相關(guān)技術(shù)研究.pdf
- 搜索引擎中索引技術(shù)研究與實(shí)現(xiàn).pdf
- 搜索引擎中查詢擴(kuò)展的研究.pdf
- 網(wǎng)絡(luò)搜索引擎的相關(guān)技術(shù)研究.pdf
- 個性化智能搜索引擎中查詢擴(kuò)展技術(shù)研究.pdf
- 搜索引擎中的查詢擴(kuò)展方法研究.pdf
- 搜索引擎檢索技術(shù)研究.pdf
- 垂直搜索引擎主要技術(shù)研究.pdf
- 搜索引擎日志挖掘技術(shù)研究.pdf
- 搜索引擎中的信息抽取技術(shù)研究.pdf
- 搜索引擎中的索引壓縮和查詢問題研究.pdf
- 搜索引擎分類展示技術(shù)研究.pdf
- 民航主題搜索引擎的索引技術(shù)研究.pdf
- 搜索引擎理論與技術(shù)研究.pdf
- 搜索引擎中文分詞技術(shù)研究.pdf
- 搜索引擎系統(tǒng)中Web挖掘技術(shù)研究.pdf
- XML搜索引擎中索引技術(shù)的研究.pdf
- 垂直搜索引擎關(guān)鍵技術(shù)研究
- 傳統(tǒng)搜索引擎與智能搜索引擎比較研究.pdf
- 主題搜索引擎信息抽取技術(shù)研究.pdf
評論
0/150
提交評論