搜索引擎中命名實(shí)體查詢處理相關(guān)技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁數(shù)：131 大?。?.55MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

搜索引擎中命名實(shí)體查詢處理相關(guān)技術(shù)研究.pdf_第1頁

已閱讀1頁，還剩130頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、當(dāng)前互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息和進(jìn)行事務(wù)活動(dòng)的一個(gè)重要平臺(tái)。隨著互聯(lián)網(wǎng)上各種數(shù)據(jù)和應(yīng)用資源的快速增長(zhǎng),搜索引擎成為人們從海量的網(wǎng)上資源中快速準(zhǔn)確地獲取信息的必要工具。用戶通過提交查詢到搜索引擎表達(dá)他們的信息需求,搜索引擎則根據(jù)對(duì)查詢的分析提供給用戶需要的檢索結(jié)果,查詢是用戶和搜索引擎之間必要的信息傳遞方式。為了使搜索引擎能夠準(zhǔn)確地理解查詢中表達(dá)的信息需求,則需要開展查詢自動(dòng)分析處理技術(shù)的研究。
　　命名實(shí)體查詢是一類重要的查詢,在

2、搜索引擎查詢中占有很高的比例,并且具有一些自身特點(diǎn),研究命名實(shí)體查詢的相關(guān)處理技術(shù)能夠使搜索引擎更好地分析用戶的檢索意圖,提供給用戶準(zhǔn)確的檢索結(jié)果,改善用戶的檢索體驗(yàn)。命名實(shí)體查詢處理技術(shù)通常包括獲取查詢中的語義片段,識(shí)別出查詢中包含的實(shí)體,分析命名實(shí)體查詢的檢索意圖等方面的研究。據(jù)此,本文從以下幾個(gè)方面開展了命名實(shí)體查詢處理的相關(guān)技術(shù)研究。
　　1、基于單語詞對(duì)齊模型的無指導(dǎo)查詢自動(dòng)切分。查詢切分是一項(xiàng)基礎(chǔ)和必要的查詢處理工作,

3、是將查詢從字符序列切分出詞匯或短語等語義單元的過程。由于查詢中出現(xiàn)的詞匯規(guī)模巨大并且包含許多不規(guī)范的詞匯,有指導(dǎo)的方法需要人工標(biāo)注大量的訓(xùn)練語料,使其不能很好地適應(yīng)查詢切分的任務(wù)。本文提出了一種基于單語詞對(duì)齊模型的無指導(dǎo)查詢切分方法。該方法僅利用查詢?nèi)罩咀詣?dòng)訓(xùn)練查詢切分模型,并在模型中能夠結(jié)合字符的共現(xiàn)信息、位置信息以及繁殖度信息,獲得了較好的查詢切分效果。本文在查詢?cè)~項(xiàng)切分的基礎(chǔ)上進(jìn)一步對(duì)查詢進(jìn)行了層次化切分,將查詢表示為切分片段的樹

4、狀結(jié)構(gòu),查詢層次化切分結(jié)果可以表示出查詢中哪些切分片段之間的關(guān)系更為緊密。實(shí)驗(yàn)結(jié)果顯示與已有的切分方法相比,本文方法獲得了更好的查詢切分效果。
　　2、基于圖上隨機(jī)游走模型的查詢?nèi)罩局忻麑?shí)體挖掘。查詢?nèi)罩臼且粋€(gè)包含大量命名實(shí)體的數(shù)據(jù)資源。從查詢?nèi)罩局型诰虺龅拿麑?shí)體,更加符合用戶構(gòu)造查詢時(shí)使用命名實(shí)體的習(xí)慣,并且查詢?nèi)罩緯?huì)不斷更新,其中記錄了一些新出現(xiàn)的實(shí)體名稱,這使得研究查詢?nèi)罩局忻麑?shí)體挖掘?qū)τ谒阉饕嫣幚砻麑?shí)體查詢更具有

5、實(shí)際意義。本文中采用了一種弱指導(dǎo)的方法進(jìn)行命名實(shí)體挖掘,其中利用了少量的屬于目標(biāo)類別的命名實(shí)體名稱作為種子,使用從查詢?nèi)罩局谐槿〕龅暮蜻x命名實(shí)體、查詢中命名實(shí)體的上下文模板以及用戶點(diǎn)擊URL構(gòu)造三分圖,采用圖上的隨機(jī)游走算法獲取目標(biāo)類別的命名實(shí)體。實(shí)驗(yàn)結(jié)果顯示,本文方法能夠有效結(jié)合查詢?nèi)罩局械拿麑?shí)體相關(guān)信息,提高查詢?nèi)罩局蝎@取命名實(shí)體的準(zhǔn)確率。
　　3、基于在線百科的命名實(shí)體同義屬性短語獲取。在命名實(shí)體的屬性短語中,描述實(shí)體同一

6、屬性的不同表達(dá)形式的短語,被稱為同義屬性短語。獲取實(shí)體的同義屬性短語對(duì)命名實(shí)體查詢的檢索意圖分析將有所幫助。在命名實(shí)體查詢中,用戶通常使用屬性短語構(gòu)建查詢,表達(dá)對(duì)實(shí)體屬性值的需求意圖。本文從在線百科中獲取命名實(shí)體的屬性短語,并采用了分類的框架結(jié)合了多種特征去識(shí)別出其中的同義屬性短語。據(jù)我們了解,本文方法是首次提出利用在線百科獲取同義屬性短語的研究。實(shí)驗(yàn)結(jié)果表明,在線百科是獲取實(shí)體同義屬性短語的有效資源,并且本文提出的方法能夠有效地獲取大

7、量的同義屬性短語。
　　4、命名實(shí)體查詢的檢索意圖識(shí)別。在本文中包括基于分類的查詢檢索意圖識(shí)別和更細(xì)粒度的基于查詢檢索模式的檢索意圖識(shí)別兩個(gè)部分。查詢意圖分類可以限制檢索結(jié)果的類別空間,提高檢索準(zhǔn)確率。在查詢意圖分類中,采用融合多種資源信息的方法進(jìn)行分類,其中根據(jù)對(duì)查詢文本,查詢?nèi)罩疽约盎ヂ?lián)網(wǎng)檢索結(jié)果的分析,獲取了有效的查詢意圖分類特征。本文進(jìn)一步在查詢意圖分類模型識(shí)別出的信息類和事務(wù)類命名實(shí)體查詢中,抽取用戶經(jīng)常使用的查詢檢索模

8、式,并將具有相似檢索意圖的查詢檢索模式進(jìn)行聚類。查詢檢索模式可以用來匹配用戶提交的查詢,幫助搜索引擎準(zhǔn)確地分析查詢的檢索意圖。本文中采用了基于圖模型方法和基于相似度方法級(jí)聯(lián)地進(jìn)行命名實(shí)體查詢的檢索模式獲取。實(shí)驗(yàn)結(jié)果顯示本文方法在多個(gè)實(shí)體類別上均有效地獲取了查詢檢索模式。
　　綜上所述,本文開展了命名實(shí)體查詢處理一些關(guān)鍵技術(shù)的研究工作,其中有些查詢處理技術(shù)出于更廣泛適應(yīng)性的考慮,其面向的對(duì)象不僅是命名實(shí)體查詢,也可以應(yīng)用到其他查詢上

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

搜索引擎中命名實(shí)體查詢處理相關(guān)技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

搜索引擎中命名實(shí)體查詢處理相關(guān)技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載