個性化智能元搜索引擎模型研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：pdf 頁數(shù)：62 大?。?.03MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩61頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、本文試圖通過設(shè)計一個個性化智能元搜索引擎模型來改善傳統(tǒng)元搜索引擎所面臨的不足。個性化是指模型可以針對不同的用戶建立不同的用戶興趣模型，采用興趣模型將查詢定位到用戶興趣領(lǐng)域中并擴展用戶查詢，能更清晰、準確的表達用戶查詢；通過用戶興趣模型來過濾和篩選搜索結(jié)果，使結(jié)果的返回更有針對性。智能是指成員搜索引擎的選擇，可以根據(jù)成員搜索引擎以往性能表現(xiàn)動態(tài)的決定每次的調(diào)度策略，選出那些可能對某個特定的領(lǐng)域有良好檢索效果的子引擎來參與最終的搜索任務(wù)。主

2、要研究內(nèi)容如下： 1.基于Ontology技術(shù)的用戶興趣模型構(gòu)建。用戶興趣模型的構(gòu)建對元搜索引擎的性能表現(xiàn)起著至關(guān)重要的作用，本論文研究了現(xiàn)有用戶興趣模型的構(gòu)建方法，元搜索引擎中采用的興趣模型大多使用傳統(tǒng)的詞頻法來衡量某個用戶的興趣，用二元組(興趣詞條，興趣權(quán)重)或三元組(興趣詞條，興趣權(quán)重，詞條新鮮度)表示，主要通過從用戶訪問記錄中抽取部分主題詞作為用戶感興趣的詞條，同時計算其出現(xiàn)的概率表達用戶對該詞條的感興趣程度，

3、即：興趣權(quán)重。但單使用詞條作為用戶感興趣的模型可能會出現(xiàn)用戶的興趣領(lǐng)域相當分散，使用該分散的興趣模型指導用戶查詢的針對性不強；同時用該分散的用戶興趣模型過濾出的結(jié)果可能仍然存在不少不相關(guān)結(jié)果。為使用戶模型能比較集中的反映用戶對某領(lǐng)域的興趣，本文提出用領(lǐng)域Ontology來表示用戶興趣，建立的模型包括用戶感興趣的領(lǐng)域以及反映對該領(lǐng)域感興趣程度的主題詞。建立好基于領(lǐng)域Ontology的用戶興趣模型后，用戶的查詢請求可與主題詞相匹配，映射到最

4、相關(guān)的領(lǐng)域主題中，使得用戶的興趣范圍更明確。 2.成員搜索引擎的調(diào)度策略。首先研究了現(xiàn)有的幾種基于定性、基于定量、基于學習法的成員引擎(也稱成員數(shù)據(jù)庫)調(diào)度策略，基于定性、定量的調(diào)度策略需要成員搜索引擎的數(shù)據(jù)庫描述信息，但很多成員搜索引擎不愿意提供其搜索引擎的設(shè)計信息和統(tǒng)計信息。如果沒有足夠的數(shù)據(jù)庫描述信息，成員搜索引擎關(guān)于給定查詢的有用性估計可能不能準確得到，使得基于定性和定量法的成員搜索引擎調(diào)度策略變成空中樓閣，無

5、法計算出與查詢的相關(guān)性。基于現(xiàn)階段元搜索引擎還難以得到足夠數(shù)據(jù)庫描述信息發(fā)展的情況，本模型采用基于學習的方法。依據(jù)領(lǐng)域Ontology的劃分情況對Internet中的信息進行領(lǐng)域的劃分，從領(lǐng)域Ontology中選取主題詞作為該子類的代表性的詞和術(shù)語。對于每一個類別代表不同類別信息的訓練查詢將用來做靜態(tài)學習，判斷成員搜索引擎對該類別的查詢效率。訓練結(jié)束后每個數(shù)據(jù)庫對于每個類別都有一個初始信任因子。模型開始運行階段采用初始信任因子

6、作為調(diào)度依據(jù)，隨著模型的運行，動態(tài)的建立成員引擎的權(quán)值向量和相關(guān)術(shù)語集，用于表示查詢詞對于該數(shù)據(jù)庫的權(quán)值向量以及查詢詞的相關(guān)術(shù)語。權(quán)值向量和相關(guān)術(shù)語集積累到一定程度時采用信任因子和權(quán)值向量兩個指標共同來調(diào)度成員搜索引擎，在信任因子排序的基礎(chǔ)上再以權(quán)值向量作為依據(jù)確定成員搜索引擎的調(diào)度策略。 3.基于聚類的元搜索引擎結(jié)果融合策略。元搜索引擎的結(jié)果融合相當重要，通過融合將多個搜索引擎的結(jié)果整合，恰當?shù)娜诤喜呗阅苁苟鄠€引擎中

7、用戶感興趣的信息統(tǒng)一排列在前列。對現(xiàn)有元搜索引擎文本選擇和結(jié)果合并方法的研究分析發(fā)現(xiàn)與用戶最相關(guān)的查詢結(jié)果不一定排列在前面，若文本選擇采用直接從成員引擎結(jié)果提取前面的結(jié)果來融合，可能會丟失不少排在后面的有用信息，同時對結(jié)果的合并排列也產(chǎn)生影響；元搜索引擎的目標是將最相關(guān)的文檔盡可能的排列到前面，而現(xiàn)有的結(jié)果排序法大都不能很好地將用戶感興趣的結(jié)果聚集成類集中放到一起，而要用戶一一到眾多的結(jié)果中尋找，基于此，本文的結(jié)果融合采用如下

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

個性化智能元搜索引擎模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

個性化智能元搜索引擎模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載