第二章信息檢索模型_第1頁
已閱讀1頁,還剩81頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信息檢索模型,,內容提要,信息檢索系統(tǒng)的形式化表示布爾邏輯模型向量空間模型概率模型其他檢索模型,什么是模型?,模型是采用數(shù)學工具,對現(xiàn)實世界某種事物或某種運動的抽象描述面對相同的輸入,模型的輸出應能夠無限地逼近現(xiàn)實世界的輸出舉例:天氣的預測模型信息檢索模型給出了文檔的表示方法,查詢的表示方式以及查詢與文檔的匹配過程,信息檢索模型,信息檢索模型是指如何對查詢和文檔進行表示,然后對它們進行相似度計算的框架和方法。本質上是對相

2、關度建模。信息檢索模型是IR中的核心內容之一。,信息檢索模型,一個信息檢索模型是由文檔表示、查詢、關系、模型框架構成的四元組。四元組:System=(D,Q,F,R(dj,qi))D 文檔集的表示Q 用戶需求的表示F 文檔表示、查詢表示和他們之間關系的模型框架(Frame)R(dj ,qi) 給出Query qi和Document dj 的評分,文檔邏輯視圖,D是一個文檔集合,通常由文檔邏輯視圖來表示??梢允且唤M索

3、引詞或關鍵詞。既可以自動提取,也可以是由人主觀指定。,匹配處理框架(F),在信息集合(D)與需求集合(F)之間建立模型化處理的框架與規(guī)則。不同檢索模型的匹配處理的數(shù)學機制是不同的。布爾模型:集合論的基本運算向量空間模型:多維向量空間理論和向量線性代數(shù)概率模型:集合論、概率運算和Bayes法則,匹配計算函數(shù)R,匹配函數(shù)R(dj,q)用于計算任一信息dj(dj∈D)與任一提問q(q∈Q)形成的信息——提問對(dj,q)之間的相似度大

4、小。一般地,R(dj,q)的函數(shù)值為一實數(shù),其取值區(qū)間為[0,1] 匹配函數(shù)的特點:計算方法簡單,計算量?。缓瘮?shù)值在取值區(qū)間均勻分布;針對某一提問所獲取的相關文檔集合,能夠實現(xiàn)合理的排序輸出。,信息檢索模型決定于:從什么樣的視角去看待查詢式和文檔?基于什么樣的理論去看待查詢式和文檔的關系?如何計算查詢式和文檔之間的相似度?,模型的分類,從所使用的數(shù)學方法上分:基于集合論的IR模型(Set Theoretic models

5、)布爾模型基于模糊集的模型擴展布爾模型基于代數(shù)論的IR模型(Algebraic models)向量空間模型潛性語義索引模型基于概率統(tǒng)計的IR模型(Probabilistic models)回歸模型二元獨立概率模型語言模型建模IR模型,1 布爾模型(Boolean Model),布爾模型是建立經典集合論和布爾邏輯代數(shù)的基礎上。 優(yōu)勢:“集合”概念直觀容易被理解和接受,布爾模型描述,文檔表示一個文檔被表示為

6、關鍵詞的集合查詢式表示查詢式(Queries)被表示為關鍵詞的布爾組合,用“與、或、非”連接起來,并用括弧指示優(yōu)先次序匹配一個文檔當且僅當它能夠滿足布爾查詢式時,才將其檢索出來檢索策略基于二值判定標準,布爾模型的基本原理布爾模型在解釋信息檢索處理過程時,主要遵守的兩條原則:系統(tǒng)索引詞集合中的每一個索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或不出現(xiàn)。每個索引詞的權值wij∈{0,1}檢索提問式q由三種布爾邏輯運算符“and”、

7、“or”、“not”連接索引詞來構成。 根據布爾邏輯的運算規(guī)定,提問式q可以被表示成由合取子項(conjunctive components)組成的析取范式(disjunctive normal form,簡稱dnf)形式。,如:提問式 q = k1 and (k2 or not k3)可寫成等價的析取范式形式: q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3

8、) or (k1 and not k2 and not k3 ) 這里q dnf是提問式q的主析取范式??蛇M一步簡化表示 為: q dnf =(1,1,1) or (1,1,0) or (1,0,0) 其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三個合取子項qcc,他們是一組向量,由對應的三元組(k1 , k2 , k3)的每一個分量取0或1得到。

9、 基于以上規(guī)則和假定,布爾模型對于任一篇文獻dj∈D,定義與用戶提問q的匹配函數(shù)為:,1 如果存在qcc|(qcc∈qdnf)且對于任意ki, 有 gi(dj) = gi(qcc) Sim(dj,q)= 0 其他 例如: 文檔集合D存在兩篇文檔d1和d2,其中,d1含有關鍵詞k1和k2,d2含有關鍵詞k1

10、和k3,則它們的文檔向量分別為: d1 =(1,1,0) , d2 =(1,0,1) 根據匹配函數(shù)的定義,顯然,d1與提問式q = k1 and (k2 or not k3)的匹配函數(shù)值是1,即d1與提問q是相關的; d2與提問式q的匹配函數(shù)值是0, 表明d2與提問q是不相關的。,,,,,,,例子:q = 病毒 AND (計算機 OR 電腦)AND NOT醫(yī) d1: …據報道,計算機病

11、毒近日猖獗…d2: …小王雖然是學醫(yī)的,但對研究電腦病毒也很感興趣,最近發(fā)明了一種…d3: …計算機程序發(fā)現(xiàn)了愛滋病病毒的傳播途徑… 哪些文檔會被檢索出來?,布爾模型的優(yōu)點,到目前為止,布爾模型是最常用的檢索模型,因為:由于查詢簡單,因此容易理解通過使用復雜的布爾表達式,可以很方便地控制查詢結果相當有效的實現(xiàn)方法相當于識別包含了一個某個特定term的文檔經過某種訓練的用戶可以容易地寫出布爾查詢式布

12、爾模型可以通過擴展來包含排序的功能,即“擴展的布爾模型”,布爾模型存在的問題,布爾模型被認為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會導致太多或者太少的結果文檔被返回非常剛性: “與”意味著全部; “或”意味著任何一個很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回很難對輸出進行排序不考慮索引詞的權重,所有文檔都以相同的方式和查詢相匹配很難進行自動的相關反饋如果一篇文檔被用戶確認為相關或者不相

13、關,怎樣相應地修改查詢式呢?,課堂練習題(1),課堂思考題:想查關于今年超女5進4比賽的新聞,用布爾模型怎么構造查詢?,參考答案,􀂄(2006 OR 今年) AND (超級女聲OR 超女OR 超級女生) AND (6進5 OR 六進五OR 六AND 進AND 五)􀂄表達式相當復雜,構造困難!􀂄不嚴格的話結果過多,而且很多不相關;非常嚴格的話結果會很少,漏掉很多結果。,課堂習題(

14、2),2 向量空間模型,向量空間模型(Vector Space Model)是康奈爾大學Salton1970年代提出并倡導成功應用于SMART( System for the Manipulation and Retrieval of Text)文本檢索系統(tǒng)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術研究的基礎,向量空間模型的基本原理,,,,,,,,,,文檔,提問,關鍵字的權重矢量,,關鍵字的權重矢量,匹配,檢索到文獻,模型的描述,文檔

15、D(Document):泛指文檔或文檔中的一個片段(如文檔中的標題、摘要、正文等)。索引項t(Term):指出現(xiàn)在文檔中能夠代表文檔性質的基本語言單位(如字、詞等),也就是通常所指的檢索詞,這樣一個文檔D就可以表示為D(t1,t2,…,tn),其中n就代表了檢索字的數(shù)量。 特征項權重Wk(Term Weight):指特征項tn能夠代表文檔D能力的大小,體現(xiàn)了特征項在文檔中的重要程度。 相似度S(Similarity):指兩個文檔內

16、容相關程度的大小,模型的特點,基于關鍵詞(一個文本由一個關鍵詞列表組成)根據關鍵詞的出現(xiàn)頻率計算相似度例如:文檔的統(tǒng)計特性用戶規(guī)定一個詞項(term)集合,可以給每個詞項附加權重未加權的詞項: Q = ? database; text; information ?加權的詞項: Q = ? database 0.5; text 0.8; information 0.2 ?查詢式中沒有布爾條件根據相似度對輸出結果進行排序

17、支持自動的相關反饋有用的詞項被添加到原始的查詢式中例如:Q ? ? database; text; information; document ?,模型中的問題,怎樣確定文檔中哪些詞是重要的詞?(索引項)怎樣確定一個詞在某個文檔中或在整個文檔集中的重要程度?(權重)怎樣確定一個文檔和一個查詢式之間的相似度?,索引項的選擇,若干獨立的詞項被選作索引項(index terms) or 詞表vocabulary索引項代表了一個應用

18、中的重要詞項計算機科學圖書館中的索引項應該是哪些呢?,索引項的選擇,這些索引項是不相關的 (或者說是正交的) ,形成一個向量空間vector space實際上,這些詞項是相互關聯(lián)的當你在一個文檔中看到 “計算機”, 非常有可能同時看到“科學”當你在一個文檔中看到 “計算機”, 有中等的可能性同時看到 “商務”當你在一個文檔中看到“商務”,只有很少的機會同時看到“科學”,文檔向量的構造 對于任一文檔dj∈D,都可

19、將它表示為t維向量形式: dj= (w1j, w2j, …,wij) 其中,向量分量wij代表第i個索引詞ki在文檔dj中所具有的權重,t為系統(tǒng)中索引詞的個數(shù)。 在Boolean模型中, wij ={0,1} 在VSM中,wij =[0,1] 一篇文檔有多個索引詞,如何計算每個索引詞的權值?,索引詞的權重,根據詞項在文檔(tf)和文檔集(idf)中的頻率(frequency)計算詞

20、項的權重tfij = 詞項j在文檔i中的頻率df j = 詞項j的文檔頻率= 包含詞項j的文檔數(shù)量idfj = 詞項j的反文檔頻率= log2 (N/ df j) N: 文檔集中文檔總數(shù)反文檔頻率用詞項區(qū)別文檔,例如:文檔總數(shù)為1000,出現(xiàn)關鍵詞k1文檔為100篇,出現(xiàn)關鍵詞k2文檔為500篇,出現(xiàn)關鍵詞k3文檔為800篇N=1000, n1=100, n2=500, n3=800根據公式: idfi = log(N/

21、ni) ,可計算出idf1= 3 - 2 = 1idf2= 3 – 2.7 = 0.3idf3 = 3 – 2.9 = 0.1Idf越大,表明區(qū)別(分)文檔的能力越強。,文檔的詞項權重(TFIDF舉例),文本:“俄羅斯頻繁發(fā)生恐怖事件,俄羅斯的安全部門加大打擊恐怖主義的力度?!?Idf 計算示例,查詢式的詞項權重,如果詞項出現(xiàn)在查詢式中,則該詞項在查詢式中的權重為1,否則為0也可以用用戶指定查詢式中詞項的權重一個自然語言查詢

22、式可以被看成一個文檔查詢式:“有沒有周杰倫的歌?” 會被轉換為:查詢式: “請幫我找關于俄羅斯和車臣之間的戰(zhàn)爭以及車臣恐怖主義首腦的資料” 會被轉換為: 過濾掉了:“請幫我找”,“和”,“之間的”,“以及”,“的資料”兩個文檔之間的相似度可以同理計算,由索引項構成向量空間,2個索引項構成一個二維空間,一個文檔可能包含0, 1 或2個索引項di = ? 0, 0 ? (一個索引項也不包含)dj = ? 0, 0.7 ?

23、(包含其中一個索引項)dk = ? 1, 2 ? (包含兩個索引項)類似的,3個索引項構成一個三維空間,n個索引項構成n維空間一個文檔或查詢式可以表示為n個元素的線性組合,文檔集 – 一般表示,向量空間中的N個文檔可以用一個矩陣表示矩陣中的一個元素對應于文檔中一個詞項的權重。“0”意味著該詞項在文檔中沒有意義,或該詞項不在文檔中出現(xiàn)。,T1 T2 …. TtD1 d11 d12 …

24、 d1tD2 d21 d22 … d2t : : : : : : : :Dn dn1 dn2 … dnt,圖示,舉例:D1 = 2T1 + 3T2 + 5T3D2 = 3T1 + 7T2 + T3Q = 0T1 + 0T2 + 2T3,D1比D2更接近Q嗎?怎樣衡量相似程度

25、?夾角還是投影,相似度計算,相似度是一個函數(shù),它給出兩個向量之間的相似程度,查詢式和文檔都是向量,各類相似度存在于:兩個文檔之間(文本分類,聚類)兩個查詢式之間(常問問題集)一個查詢式和一個文檔之間(檢索)人們曾提出大量的相似度計算方法,因為最佳的相似度計算方法并不存在。,通過計算查詢式和文檔之間的相似度,可以根據預定的重要程度對檢索出來的文檔進行排序可以通過強制設定某個閾值,控制被檢索出來的文檔的數(shù)量檢索結果可以被用于相關

26、反饋中,以便對原始的查詢式進行修正。 (例如:將文檔向量和查詢式向量進行結合),相似度度量 – 內積(Inner Product),文檔D 和查詢式Q 可以通過內積進行計算:sim ( D , Q ) = (dik ? qk)dik 是文檔di中的詞項k 的權重,qk 是查詢式Q中詞項k的權重對于二值向量, 內積是查詢式中的詞項和文檔中的詞項相互匹配的數(shù)量對于加權向量, 內積是查詢式和文檔中相互匹配的詞項的

27、權重乘積之和,內積 – 舉例,二值(Binary):D = 1, 1, 1, 0, 1, 1, 0Q = 1, 0 , 1, 0, 0, 1, 1sim(D, Q) = 3,retrieval,database,architecture,computer,text,management,information,向量的大小 = 詞表的大小 = 70 意

28、味著某個詞項沒有在文檔中出現(xiàn),或者沒有在查詢式中出現(xiàn),加權 D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2

29、,內積的特點,內積值沒有界限不象概率值,要在(0,1)之間對長文檔有利內積用于衡量有多少詞項匹配成功,而不計算有多少詞項匹配失敗長文檔包含大量獨立詞項,每個詞項均多次出現(xiàn),因此一般而言,和查詢式中的詞項匹配成功的可能性就會比短文檔大。,余弦(Cosine)相似度度量,余弦相似度計算兩個向量的夾角余弦相似度是利用向量長度對內積進行歸一化的結果,CosSim(Di, Q) =,D1 = 2T1 + 3T2 + 5T3 Co

30、sSim(D1 , Q) = 5 / ? 38 = 0.81D2 = 3T1 + 7T2 + T3 CosSim(D2 , Q) = 1 / ? 59 = 0.13 Q = 0T1 + 0T2 + 2T3,用余弦計算,D1 比 D2 高6倍;用內積計算, D1 比 D2 高5倍,其它相似度度量方法,存在大量的其它相似度度量方法,Jaccard Coefficient:,D1 = 2T1 + 3T2 + 5T3

31、 Sim(D1 , Q) = 10 / (38+4-10) = 10/32 = 0.312D2 = 3T1 + 7T2 + T3 Sim(D2 , Q) = 2 / (59+4-2) = 2/61 = 0.033 Q = 0T1 + 0T2 + 2T3,D1 比 D2 高9.5倍,示例,向量空間模型優(yōu)點,術語權重的算法提高了檢索的性能 部分匹配的策略使得檢索的結果文檔集更接近用戶的檢索需求可以根據結果文檔對于查詢

32、串的相關度通過Cosine Ranking等公式對結果文檔進行排序,向量空間模型的不足,標引詞之間被認為是相互獨立隨著Web頁面信息量的增大、Web格式的多樣化,這種方法查詢的結果往往會與用戶真實的需求相差甚遠,而且產生的無用信息量會非常大隱含語義索引模型是向量空間模型的延伸,課堂練習(3),對于下列例子,計算(文檔長度以字節(jié)數(shù)表示,不含標點和空格),寫出計算過程,并判斷哪篇文檔和查詢q更相關。Q:"gold silve

33、r truck"D1:"Shipment of gold damaged in a fire"D2:"Delivery of silver arrived in a silver truck"D3:"Shipment of gold arrived in a truck",概率模型,,有一支沙羅曼蛇的壘球隊,根據以往的經驗,如果天氣晴朗的話,有75%的可能性贏得

34、比賽;如果最好的游擊手上場的話,有60%的可能性贏得比賽。那么,如果這支球隊在天氣晴朗且最好游擊手上場的情況下獲勝的概率有多少?(假設沙羅曼蛇球隊輸贏次數(shù)一樣多),3 概率模型,概率論模型主要基于概率論原理來理解和解決信息檢索問題。在概率論的基礎上,目前提出的檢索模型主要有經典概率模型(二值獨立檢索模型, Binary Independence Retrieval, BIR)、基于Bayesian網絡的推理網絡模型(Interence

35、Network Model)和信念網絡模型(Belief Network Model)等。,經典概率模型最早在1976年由英國城市大學Robertson和Sparck-Jones提出?;舅枷耄航o定一個用戶提問,則檢索系統(tǒng)中存在一個與該提問相關的理論命中結果集R。如果能已知R的主要特征及其描述,則用戶的檢索要求便不難實現(xiàn)。事實上,用戶提出檢索請求時,并不知道R的特征,為此,需要在檢索開始時就對R的特征進行某種猜測。根據初始的猜測,系統(tǒng)

36、將檢索出一個初步命中的結果集合。,在此基礎上,用戶可以對初始的檢索結果集合中文檔相關與否進行判斷。在根據這些反饋信息,系統(tǒng)便可以在后續(xù)的檢索處理中不斷做出優(yōu)化和改進,經過多次反復,至理想的結果集R。最為重要的是如何進行初始的猜測和如何通過相關反饋與交互不斷調整、改善檢索性能。,概率模型,檢索問題即求條件概率問題If Prob(R|di, q) > Prob(NR|di, q) then di是檢索結果,否則不是檢索結果,檢索的

37、理想結果,理想答案集(ideal answer set)給定一個用戶的查詢串,相對于該串存在一個包含所有相關文檔的集合我們把這樣的集合看作是一個理想的結果文檔集用索引項刻畫理想答案集的屬性把查詢處理看作是對理想結果文檔集屬性的處理我們并不能確切地知道這些屬性,我們所知道的是用索引詞的語義來刻畫這些屬性,實際采取的策略,初始估計由于在查詢期間這些屬性都是不可見的,這就需要在初始階段來估計這些屬性。這種初始階段的估計允許我們對

38、首次檢索的文檔集合返回理想的結果集,并產生一個初步的概率描述。相關反饋(relevance feedback)為了提高理想結果集的描述概率,系統(tǒng)需要與用戶進行交互式操作,具體處理過程如下:用戶大致瀏覽一下結果文檔,決定哪些是相關的,哪些是不相關的;然后系統(tǒng)利用該信息重新定義理想結果集的概率描述;重復以上操作,就會越來越接近真正的結果文檔集。,概率模型的理論,概率模型是基于以下基本假設:給定一個用戶的查詢串 q和集合中的文檔

39、dj ,概率模型估計用戶查詢串與文檔dj 相關的概率。概率模型假設這種概率只決定于查詢串和文檔。更進一步說,該模型假定在文檔集合中存在一個子集,即相對于查詢串q的結果文檔子集,這種理想的集合用R表示,集合中的文檔是被預料與查詢串相關的。這種假設存在著缺點,因為它沒有明確定義計算相關度的概率,下面將給出這種概率的定義。,查詢式與文檔的相關度概率定義,在概率模型中索引術語的權重都是二值的 wi,j?{0,1}, wi,q?{0,1

40、}, 查詢式q是索引詞項集合的子集設R是相關文檔集合(初始的猜測集合), 是R的補集(非相關文檔的集合) 表示文檔dj和查詢式q相關的概率; 表示文檔dj和查詢式q不相關的概率;,查詢式與文檔的相關度概率定義,文檔dj對于查詢串q的相關度值定義為:根據貝葉斯原理其中: 代表從相關文檔集合R中隨機選取文檔dj的概率,P(R)表示從整個集合中隨機選取

41、一篇文檔作為相關文檔的概率,依此定義 和,推導,P(R)和 表示從整個文檔集合中隨機選取一篇文檔是否和查詢相關先驗概率,而對于一個確定的文檔集來說,這兩個先驗概率僅與查詢有關,而與具體的每篇文檔無關,進一步簡化可得假設索引術語是相互獨立的則:,最終的概率模型排序公式,表示集合R中隨機選取的文檔中出現(xiàn)索引術語ki的概率, 表示集合R中隨機選取的文檔中不出現(xiàn)索引術語的概率,則有:

42、類似定義 和 ,在相同查詢背景下,忽略對所有文獻保持不變的因子,最終得到: 這是概率模型主要的排序公式,初始化方法,由于我們在開始時并不知道集合R,因此必須 設計一個初始化計算 和 的算法。在查詢的開始間段只定義了查詢串,還沒有得到結果文檔集。我們不得不作一些簡單的假設,假定P(ki|R)對所有的索引術語來說

43、是常數(shù)(一般等于0.5)假定索引術語在非相關文檔中的分布可以由索引術語在集合中所有文檔中的分布來近似表示。P(ki|R)=0.5=ni/Nni表示出現(xiàn)索引術語ki的文檔的數(shù)目,N是集合中總的文檔的數(shù)目。,改進,V表示用概率模型初步檢出的經過排序的子集,Vi為包含ki的V的一個子集。為了改善概率排序,需要對上述初始化公式改進:通過迄今已檢出的文獻中標引詞ki的分布來估計 通過假定所有未檢出的文獻都是不相關的來估

44、計這一過程可以遞歸重復,,概率模型小結,優(yōu)點文檔可以按照他們相關概率遞減的順序來排序。缺點開始時需要猜想把文檔分為相關和不相關的兩個集合,一般來說很難實際上這種模型沒有考慮索引術語在文檔中的頻率(因為所有的權重都是二值的)假設標引詞獨立概率模型是否要比向量模型好還存在著爭論,但現(xiàn)在向量模型使用的比較廣泛。,瀏覽模型,,瀏覽模型,針對瀏覽(browsing)文獻的用戶具體分為三種模型扁平瀏覽(flat)模型結

45、構導向(structure guided)模型超文本(hypertext)模型,扁平瀏覽模型,基本思想是假設用戶瀏覽一個扁平組織結構的文獻空間。為何扁平組織結構?日常生活中有哪些?文獻集合被描述為二維平面上的點或一維鏈表中的元素。優(yōu)點 VS缺點,結構導向瀏覽模型,基本思想是把眾多文檔或信息資源組織到一個樹狀的類目等級體系中。用戶在該結構下,將由上到下,從寬泛到具體,逐步接近所需要的有用信息。,超文本瀏覽模型,基本思想是允許以非

46、順序的方式在計算機屏幕上瀏覽文本的高層交互式導航結構。由結點和鏈組成,構成一個有向圖。網絡空間的迷航與超文本地圖。,擴展的布爾模型,布爾檢索示例,“飛碟”AND “小說”:只能檢索出D4,無法顯現(xiàn)D1,D2,D3的差異“飛碟”O(jiān)R “小說”:可以檢出D1,D2,D4,但無法顯現(xiàn)它們的差異,擴展布爾模型,布爾模型和VSM各自有著自己的優(yōu)點和不足,能否將兩者結合起來,克服自身的缺點,發(fā)揮相互的長處?1983年G.Salton及其學

47、生提出一種基于布爾邏輯框架的混合布爾、向量特性的“擴展布爾模型”。,布爾模型和向量空間模型相結合,布爾模型可以和向量空間模型相結合,先做布爾過濾,然后進行排序:首先進行布爾查詢將全部滿足布爾查詢的文檔匯集成一個文檔用向量空間法對布爾檢索結果進行排序,如果忽略布爾關系的話,向量空間查詢式和布爾查詢式是相同的,先“布爾”,后“排序”存在的問題,如果 “與” 應用于布爾查詢式, 結果集可能太窄,因而影響了后面的排序過程如果 “或”

48、 應用于布爾查詢式, 就和純向量空間模型沒有區(qū)別了在第一步,如何最佳地應用布爾模型呢?提出擴展布爾模型,擴展布爾模型中的“或”關系,給定一個或關系的查詢式:x ? y假設文檔di中x和y的權重被歸一化在(0,1)區(qū)間內:wx,j = (tfx,j / maxl tfl,j )? (idfx / maxi idfi)sim(qor, dj) = [ (x2 + y2)/2 ]0.5 where x = wx,j and

49、 y = wy,j,一個文檔在(1,1)處獲得最高的權重,此時意味著文檔包含了全部兩個查詢詞,并且查詢詞在文檔中的權重也是最高的函數(shù)sim()度量了從原點出發(fā)的文檔向量長度,擴展布爾模型中的“與”關系,給定一個聯(lián)合的查詢式 x ? ysim(qand, dj) = 1 ? { [ (1? x)2 + (1? y)2 ]/2 }0.5函數(shù)sim() 表示從(1,1) 出發(fā)到d的向量長度,擴展的布爾檢索相似度計算示例,觀察,如果權值

50、是布爾型的,x出現(xiàn)在文檔dj中,則x在文檔dj中具有權重1,否則為0當dj 包含x和y時sim(qand, dj) = sim(qor, dj) = 1當dj 既不包含x 也不包含y時sim(qand, dj) = sim(qor, dj) = 0當dj 包含x 和y二者之一時sim(qand, dj) = 1 ? 1/20.5 = 0.293sim(qor, dj) = 1/20.5 = 0.707,觀察,一個詞

51、項的存在將對“或”關系查詢式提供0.707的增益值,但對“與”關系查詢式僅提供0.293的增益值一個詞項不存在,將給“與”關系的查詢式提供0.707的罰分當x 和y 有權值0.5, sim(qand, d) = sim(qor, d) = 0.5在一個“與”關系查詢中,兩個詞項的權重均為0.5,則相似度為0.5。其中一個權重為1,另一個為0,相似度為0.293。在“或關系”查詢中,情況恰好相反在“與關系”查詢中,如果一個詞項的

52、權重低于0.5,將給相似度貢獻一個較大的罰分,p-norm 模型,擴展布爾模型可以被泛化為m 個查詢項:sim(qor, d) = [ (x12 + x22 + ... + xm2 ) / m ]0.5sim(qand, d) = 1 ? { [ (1? x1)2 + (1? x2)2 + ... + (1? xm)2 ] / m }0.5它可以被進一步地 泛化為p-norm model:sim(qor, d) = [ (x1p

53、 + x2p + ... + xmp ) / m ] 1/psim(qand, d) = 1 ? { [ (1? x1) p + (1? x2) p + ... + (1? xm) p ] / m }1/p當p = 1時, sim(qor, d) = sim(qand, d) = (x1 + x2 + ... + xm )/ m通過語詞-文獻權值的和來求合取和析取查詢的值,和向量空間中的內積相似當p = ?, sim(qor,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論