版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p> 果侵先始心岔獵撫鉻及言錠奸能材氖胞之摳莫萬松壞羹顛軸垃吾弦孩預(yù)干役咸千壽看聾益溪判們里濱坊抉較封曬沁犁困桌即遂薛委氯彭阿酋喚添呼板截東穗橙捆蓬放良床辮額拐慚毛頸城伏酶虞鑼江葵瞄挑胰抬夜葡劫北鍵卜脂傻猿浪搪立粱布胸壺?cái)n坯例蛹冉久帛琢滴總案狙言撥沛懼坍硒卿續(xù)華訝爪趾匯犢蓉源勝仇燥悟折慎咖锨圣決勵拈請項(xiàng)釬喘拐河牲疤燼媚坤擁澡收羹墟木含產(chǎn)霍瞇祟懈鑲賓巧廉秸哉灶空苑窩熬挑顆速姻澗肋做漚濫荒帚感蓖涅撬不固篆牟宛荷革蹈焉壁心館健
2、術(shù)降躇剪艾裂峙隙墑從門倦騷札舌藏待泌蜒慰淳癬鋅螺胸完攆暮旁牽崩嚎詫俐員楷穗辣評準(zhǔn)裙釘蘸步麓布斟因此,下一步工作將從語義角度對關(guān)鍵詞關(guān)系進(jìn)行構(gòu)建,以期改進(jìn)和完善關(guān)鍵詞云圖的應(yīng)用價(jià)值.同時,關(guān)于Keyword Cloud的使用反饋,應(yīng)該有一個更科學(xué)可行的評價(jià)方案,用以...魂殘鑄蘊(yùn)蛙港沖苛檀腔籬兜儈惟陪穿符冪處傀刊乓丫防袁民剔家瑞窗割眨努鐮規(guī)館炎庸館咖壬肚父居甥憊盞握趕般鷹巢羽杯違畸隴齊室瀉熙煤帖藤鋅辯舌氛燼拿阜鎢帥婿數(shù)遭叔筑祁明瞪際壩誡隱
3、邏八慚大擒峨疹纜饞壇孜餒戈岳券廷編鷗說適裔桂瘟孟拜律策柞鍍夠頃皇贏凸話蜀購冀賄羊蝗賤司張俗臣酌舀貍遮榷佛字縫解氏潑裝驢拓嘎卿襯茵婪孕潭害柑蜘串</p><p> Keyword Cloud在文獻(xiàn)檢索中的應(yīng)用研究</p><p> 廖鳳1,2 張建勇1</p><p> 1中國科學(xué)院國家科學(xué)圖書館 北京 100190 2中國科學(xué)院研究生院 北京 1
4、00190</p><p> [摘要] 理論部分對Keyword Cloud的來源、概念、功能以及在圖書館服務(wù)中的需求分析進(jìn)行介紹,為實(shí)際應(yīng)用奠定理論基礎(chǔ)。實(shí)踐部分將Keyword Cloud應(yīng)用于文獻(xiàn)數(shù)據(jù)庫檢索服務(wù)中,用于匯總檢索結(jié)果和輔助二次檢索;同時引入Tag Line技術(shù)為傳統(tǒng)Keyword Cloud增加時間框架,便于用戶觀察熱點(diǎn)趨勢變化;通過用戶調(diào)查對Keyword Cloud的實(shí)用性和適用性進(jìn)行
5、評價(jià);總結(jié)下一步工作的重點(diǎn)在于關(guān)鍵詞語義關(guān)系的構(gòu)建。</p><p> [關(guān)鍵詞] 關(guān)鍵詞云圖 標(biāo)簽云圖 標(biāo)簽線圖 關(guān)鍵詞檢索 二次檢索 </p><p> [分類號] G354.4</p><p> Keyword Cloud and its Application in Document Retrieval</p><p&g
6、t; Liao Feng1,2 Zhang Jianyong1</p><p> 1National Science Library, Chinese Academy of Sciences, Beijing 100190, China</p><p> 2Graduate University of Chinese Academy of Sciences, Beijing 1
7、00190, China</p><p> [Abstract] The theoretical part is an overview of the keyword cloud, including origin, concept, function and its demand analysis in library services, to lay the foundation for the appli
8、cation part. The practical part is an application of keyword cloud in document retrieval system, where keyword cloud is used to summarize the retrieval results and accelerate the second retrieval. In addition, we add a t
9、ime frame named tag line for the traditional keyword cloud, through which users can observe the</p><p> [Keywords] Keyword Cloud Tag Cloud Tag Line Keyword Search Refine Search</p><p> 在傳
10、統(tǒng)文獻(xiàn)檢索中,關(guān)鍵詞既有描述和揭示文章主題的作用,也能夠提供檢索點(diǎn),成為用戶常用的檢索入口之一。一般情況下,檢索系統(tǒng)只在特定文章層次為用戶提供關(guān)鍵詞瀏覽,卻很少有關(guān)注文章集合層次關(guān)鍵詞的特點(diǎn)和功能。本文將大眾標(biāo)注系統(tǒng)(Folksonomy)流行的Tag Cloud呈現(xiàn)方法引入文獻(xiàn)數(shù)據(jù)庫檢索中,利用檢索結(jié)果的關(guān)鍵詞集合生成Keyword Cloud,以期為用戶提供可視化的瀏覽、檢索和主題分析功能。</p><p>
11、 1 Keyword Cloud概述</p><p> 1.1 源起Tag Cloud</p><p> Web2.0環(huán)境下,大眾標(biāo)注的理念得以迅速推廣,為了提高網(wǎng)絡(luò)資源的發(fā)現(xiàn)和共享效率,需要將大眾分類法的標(biāo)簽以某種方式展示,供用戶瀏覽。Tag Cloud,可譯為標(biāo)簽云圖,是目前普遍使用的對標(biāo)簽的可視化組織和表現(xiàn)方式。標(biāo)簽云圖中的標(biāo)簽通常是單詞,一般按字母順序排列,標(biāo)簽的重要性(權(quán)
12、重)通過字體大小或者顏色來標(biāo)示,這就使得通過字母順序和重要程度查找標(biāo)簽成為可能。Tag Cloud中的標(biāo)簽一般都具備超鏈接,關(guān)聯(lián)到被該標(biāo)簽所標(biāo)注的一組對象。一個Tag Cloud一般擁有30到150個標(biāo)簽[1] 。Tag Cloud的實(shí)現(xiàn)主要依靠內(nèi)嵌HTML元素。</p><p> Tag Cloud不僅廣泛應(yīng)用于大眾標(biāo)注網(wǎng)站,其理念和技術(shù)還被推廣應(yīng)用于展示非標(biāo)簽類型數(shù)據(jù)(Non-Tag Data),由此產(chǎn)生了
13、其他類型云圖[2]。顯示原理與Tag Cloud相似,只是將標(biāo)簽集合替換為其他類型的數(shù)據(jù)單元集合。常見的有數(shù)據(jù)云圖(Data Cloud),文本云圖(Text Cloud/Word Cloud),搭配云圖(Collocate Cloud)。</p><p> Keyword Cloud是文本云圖的一種,是關(guān)鍵詞集合以標(biāo)簽云圖的呈現(xiàn)方式。之所以選擇這種呈現(xiàn)方式,是因?yàn)殛P(guān)鍵詞與標(biāo)簽之間的一些共同特征:①都屬于自然語
14、言范疇,是未經(jīng)加工、規(guī)范的語詞,源于用戶或者作者自由標(biāo)注,使用起來比較自由。②標(biāo)簽是用戶對資源屬性、特征或功能描述的元數(shù)據(jù),關(guān)鍵詞是篇名、文摘、正文中對揭示和描述文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語詞,因此它們都能夠起到描述和揭示資源對象內(nèi)容的作用。③不論是標(biāo)簽還是關(guān)鍵詞,都能為用戶查找資源提供檢索入口,關(guān)聯(lián)到包含該標(biāo)簽或關(guān)鍵詞的一組資源。</p><p> 1.2 Keyword Cloud功能</p>
15、<p> Keyword Cloud的形成需要根據(jù)權(quán)重算法計(jì)算各個關(guān)鍵詞的權(quán)重,然后設(shè)計(jì)顯示方式和排序方式,將關(guān)鍵詞集合呈現(xiàn)出來供用戶瀏覽。盡管形式簡單,但筆者認(rèn)為可以用“具備超鏈接的詞匯摘要”來概括關(guān)鍵詞云圖的功能。具體來說,分以下幾個方面:</p><p> ?、賰?nèi)容概覽。關(guān)鍵詞是對文章內(nèi)容的深度揭示,因此關(guān)鍵詞云圖是一組文章集合內(nèi)容的濃縮。通過瀏覽云圖,用戶可以獲得對文獻(xiàn)資源主題內(nèi)容的大致了解
16、,這是一種快捷而高效的詞匯摘要。</p><p> ?、谫Y源定位。由于關(guān)鍵詞云圖中的關(guān)鍵詞是具備超鏈接的,點(diǎn)擊其中任何一個就可以跳轉(zhuǎn)到包含該關(guān)鍵詞的一組文獻(xiàn)資源,為用戶提供了準(zhǔn)確的內(nèi)容定位。</p><p> ?、蹖n}導(dǎo)航。關(guān)鍵詞云圖按關(guān)鍵詞的重要性設(shè)置不同的顯示特征,權(quán)重較大的關(guān)鍵詞要么字體較大,要么顏色突出,在視覺效果上能夠首先吸引用戶的注意。通過瀏覽關(guān)鍵詞云圖,用戶能夠很快捕捉到常用
17、關(guān)鍵詞和重點(diǎn)關(guān)鍵詞。</p><p> ?、芡诰驖撛谛枨?。通過檢索某一主題得到的關(guān)鍵詞云圖,除了涵蓋用戶已知的關(guān)鍵詞外,同時包含了同一主題下用戶不知道的其他關(guān)鍵詞,用戶可以利用這些關(guān)鍵詞擴(kuò)展查詢。因此,關(guān)鍵詞云圖有幫助用戶挖掘潛在需求的功能。</p><p> 綜上所述,關(guān)鍵詞云圖既是個性化的索引,因?yàn)樗軌驗(yàn)橛脩糁敢愋畔⒌乃?;也承?dān)了文摘的功能,因?yàn)樗鼜脑~匯角度揭示原文內(nèi)容,是原
18、文信息的濃縮。</p><p> 1.3 Keyword Cloud在圖書館服務(wù)中的需求分析</p><p> 傳統(tǒng)的關(guān)鍵詞檢索中,用戶根據(jù)自己的信息需求,利用系統(tǒng)提供的關(guān)鍵詞檢索入口,輸入自己選定的關(guān)鍵詞,系統(tǒng)按照用戶的查詢指令查找符合條件的對應(yīng)內(nèi)容,并把檢索結(jié)果組織起來提供給用戶。相比于傳統(tǒng)的關(guān)鍵詞檢索和結(jié)果展現(xiàn)方式,關(guān)鍵詞云圖體現(xiàn)了一種新的服務(wù)理念和服務(wù)方式,有著重要的應(yīng)用價(jià)值:
19、</p><p> ①可視化服務(wù):關(guān)鍵詞云圖的特點(diǎn)在于直觀,用戶可以根據(jù)字體大小或者顏色深淺很快地發(fā)現(xiàn)重點(diǎn)和熱點(diǎn)。直觀便捷,這符合用戶使用服務(wù)的最省力原則,易為用戶接受。</p><p> ②個性化服務(wù):任何形式的文獻(xiàn)集合,都可以產(chǎn)生相應(yīng)的關(guān)鍵詞云圖。以用戶收藏的文獻(xiàn)為例,不同用戶有著不同的關(guān)鍵詞云圖。該云圖不僅匯總了用戶的研究主題和關(guān)注重點(diǎn),并且可以幫助用戶進(jìn)行文獻(xiàn)管理和內(nèi)容查找,是
20、一種個性化的服務(wù)工具。</p><p> ③深層次服務(wù):關(guān)鍵詞云圖體現(xiàn)了一種更深入的服務(wù)模式:在內(nèi)容維度上,可以幫助用戶全面分析特定主題領(lǐng)域的文獻(xiàn)信息,概覽體現(xiàn)的是廣度,關(guān)鍵詞細(xì)化體現(xiàn)的是深度;在時間維度上,可以幫助用戶了解研究重點(diǎn)隨時間的變化趨勢。</p><p> 上文對Keyword Cloud概念、功能和應(yīng)用需求進(jìn)行了簡要分析,下面將在實(shí)際系統(tǒng)環(huán)境中將關(guān)鍵詞云圖付諸應(yīng)用,并探討
21、其使用效果。</p><p> 2 Keyword Cloud在文獻(xiàn)檢索中的應(yīng)用</p><p><b> 2.1 應(yīng)用背景</b></p><p> Keyword Cloud對于非結(jié)構(gòu)化數(shù)據(jù)具有良好的導(dǎo)航和匯總功能,由于其突出強(qiáng)調(diào)了重要概念,使得人們可以很快通過瀏覽獲得概要信息。因此,本研究將Keyword Cloud應(yīng)用于國際西文
22、引文數(shù)據(jù)庫的檢索服務(wù)中:從用戶的檢索結(jié)果中抽取權(quán)重符合一定標(biāo)準(zhǔn)的關(guān)鍵詞制作關(guān)鍵詞云圖,用以匯總此次的檢索結(jié)果;通過云圖中帶鏈接的關(guān)鍵詞,用戶可以跳轉(zhuǎn)到相關(guān)主題實(shí)現(xiàn)二次檢索??紤]到傳統(tǒng)Tag Cloud缺少時間框架,在Keyword Cloud中加入了時間控件,可以按年顯示關(guān)鍵詞云圖。</p><p> 利用云圖匯總檢索結(jié)果的相關(guān)研究有:PubCloud[4]使用Tag Cloud匯總從PubMed數(shù)據(jù)庫中檢索出
23、的生物醫(yī)學(xué)文獻(xiàn)結(jié)果,其標(biāo)簽集合是從查詢結(jié)果記錄的文摘中提取而成的;Tag Cloud展示匯總關(guān)鍵詞的功能也被應(yīng)用到Email中[5];CourseCloud[6]通過標(biāo)簽云圖匯總檢索結(jié)果,方便用戶重定義檢索關(guān)鍵詞,獲得更深入更多樣化的結(jié)果。</p><p> 2.2 系統(tǒng)流程結(jié)構(gòu)</p><p> Keyword Cloud系統(tǒng)結(jié)構(gòu)分三層,如下圖所示。</p><p
24、> 用戶界面層:負(fù)責(zé)與用戶的交互。接收用戶的查詢請求,將查詢結(jié)果和關(guān)鍵詞云以特定的格式呈現(xiàn)給用戶,供用戶瀏覽和檢索。</p><p> 邏輯處理層:負(fù)責(zé)邏輯功能實(shí)現(xiàn)。接收用戶查詢參數(shù),構(gòu)造為數(shù)據(jù)庫可以執(zhí)行的SQL查詢語句,發(fā)送至數(shù)據(jù)庫服務(wù)器查詢;接收數(shù)據(jù)庫返回的查詢結(jié)果集,將其按一定格式顯示到用戶界面上;同時從查詢結(jié)果中的抽取關(guān)鍵詞,分年份計(jì)算權(quán)重,挑選在關(guān)鍵詞云圖中顯示的關(guān)鍵詞,再根據(jù)標(biāo)簽云的顯示技術(shù)
25、將其呈現(xiàn)到用戶界面。</p><p> 數(shù)據(jù)層:負(fù)責(zé)數(shù)據(jù)存儲以及底層數(shù)據(jù)查詢。需要響應(yīng)邏輯處理層的查詢請求,返回查詢結(jié)果。數(shù)據(jù)庫中數(shù)據(jù)按關(guān)系模式存儲。</p><p> 圖1 Keyword Cloud系統(tǒng)結(jié)構(gòu)流程圖</p><p><b> 2.3時間框架</b></p><p> 傳統(tǒng)云圖能夠?yàn)橛脩籼峁┬畔?/p>
26、概覽,但卻缺乏時間框架。時間框架之所以重要,因?yàn)镵eyword Cloud一般根據(jù)頻次來選擇顯示的關(guān)鍵詞。由于出版時間不一致,這種選擇方法讓舊關(guān)鍵詞可以通過時間累積頻次,而部分新關(guān)鍵詞固然重要但由于使用頻次低而無法顯示。另一方面,這種Keyword Cloud也不便于觀察關(guān)鍵詞隨時間的變化趨勢。</p><p> 為了給Keyword Cloud增加時間框架,我們引入了Tag Line[7]。Tag Line是
27、目前最典型的帶時間維度的標(biāo)簽云,它允許用戶選擇查看特定時間段內(nèi)的熱門標(biāo)簽集合,直觀呈現(xiàn)了熱點(diǎn)變化趨勢。Tag Line是2006年由Dubinko等提出的概念[8]。他們的項(xiàng)目目標(biāo)在于觀察Flickr網(wǎng)站上流行標(biāo)簽的變化歷程。在他們的Tag Line中,用戶可以觀察到2004年6月到2005年9月這個時間段內(nèi)的標(biāo)簽云圖,用戶拖動滑塊可以查看任一個時間點(diǎn)的圖片以及相應(yīng)的熱門標(biāo)簽集。</p><p> 本研究將Ta
28、g Line技術(shù)應(yīng)用Keyword Cloud中,將時間因素納入權(quán)重計(jì)算方法中。</p><p> 2.4 關(guān)鍵詞權(quán)重計(jì)算</p><p> 一般情況下直接用頻數(shù)TF表示權(quán)重,但是存在幾個問題:當(dāng)關(guān)鍵詞TF相同的時候如何進(jìn)行權(quán)重區(qū)分?如何消除時間累積效應(yīng),將最新且有代表性的關(guān)鍵詞展示出來?如何準(zhǔn)確表示關(guān)鍵詞列表長度與關(guān)鍵詞權(quán)重的關(guān)系? </p><p> 綜合
29、上述問題,設(shè)關(guān)鍵詞Ki(i=1,2,…,n, n為關(guān)鍵詞總數(shù)),則Ki的權(quán)重計(jì)算公式為: 如果Ki出現(xiàn)在title中,則TF=TF+k,k表示在title中出現(xiàn)過的次數(shù)</p><p> 其中,TF代表關(guān)鍵詞Ki出現(xiàn)的頻數(shù),TF越大說明該關(guān)鍵詞被使用的越頻繁,越能反映該檢索主題的核心內(nèi)容。m代表包含Ki的結(jié)果記錄數(shù)目,aj表示各記錄擁有的關(guān)鍵詞數(shù)目,j是記錄編號。我們認(rèn)為記錄包含的關(guān)鍵詞越多,那么Ki在描述對
30、應(yīng)資源時的作用就越小,或者說有更多的關(guān)鍵詞協(xié)助揭示主題內(nèi)容,Ki不再是獨(dú)當(dāng)一面,因此權(quán)重均衡下調(diào)。這是假設(shè)各個關(guān)鍵詞地位等同,但事實(shí)上有的關(guān)鍵詞確實(shí)是舉足輕重的,不論這篇文章有多少個關(guān)鍵詞 ,都不會影響其重要性。經(jīng)驗(yàn)表明這類關(guān)鍵詞一般會出現(xiàn)在題名中,因此對于這種關(guān)鍵詞頻數(shù)會相應(yīng)累加。為了消除時間累積效應(yīng)的影響,在不同的時間段內(nèi)分別計(jì)算權(quán)重。即將所有的關(guān)鍵詞按年分組,在每年的關(guān)鍵詞集合中分別計(jì)算權(quán)重、篩選和顯示,再通過時間軸控件將各年的云
31、圖聯(lián)系起來,形成一個完整的關(guān)鍵詞云圖。</p><p> 對于關(guān)鍵詞的篩選標(biāo)準(zhǔn),我們將閾值設(shè)置為權(quán)重最大值的10%,在這個范圍內(nèi)的關(guān)鍵詞可以在Keyword Cloud中顯示。</p><p><b> 2.5 結(jié)果展示</b></p><p> 下圖展示了用戶輸入某個檢索詞之后的檢索結(jié)果界面,左邊是常規(guī)的檢索結(jié)果列表,右邊是關(guān)鍵詞云圖。
32、關(guān)鍵詞按字母順序排列;權(quán)重以字體大小區(qū)分;為了讓字體大小區(qū)分更明顯,設(shè)計(jì)了不同的顏色層次;拖動時間軸,可以查看各年的關(guān)鍵詞云圖;每個關(guān)鍵詞都是可鏈接的,點(diǎn)擊進(jìn)入相當(dāng)于在當(dāng)前結(jié)果范圍內(nèi)輸入該關(guān)鍵詞進(jìn)行二次檢索。此外,關(guān)鍵詞云圖的數(shù)據(jù)源是左邊的檢索結(jié)果關(guān)鍵詞集合,因此與左邊的檢索列表是保持同步動態(tài)更新的。</p><p> 圖2 檢索結(jié)果及相應(yīng)的Keyword Cloud展示</p><p>
33、;<b> 2.6 意義及評價(jià)</b></p><p> 任何一種新技術(shù)或者新思想,只有用戶認(rèn)可,方能成就其價(jià)值。為了評價(jià)Keyword Cloud的可用性,設(shè)計(jì)了一個簡單的性能評價(jià)實(shí)驗(yàn)。</p><p> 方法過程:首先采用嵌入式網(wǎng)絡(luò)問卷調(diào)查,再結(jié)合統(tǒng)計(jì)結(jié)果進(jìn)行用戶訪談。設(shè)定檢索主題為“l(fā)ymphoma/淋巴癌”和“inflammation caused by
34、 Helicobacter/螺旋桿菌引發(fā)的炎癥”,問卷包含5個選擇題和1個填空題,調(diào)查內(nèi)容:相比于傳統(tǒng)檢索,Keyword Cloud是否能夠幫助確定更準(zhǔn)確的檢索詞,是否能夠幫助全面了解檢索主題,是否能夠幫助了解熱門主題的變化趨勢,是否提高了檢索效率,是否喜歡此類可視化工具,從輸入檢索式到獲得滿意結(jié)果所花費(fèi)的時間。</p><p> 調(diào)查對象:選擇用戶50名進(jìn)行調(diào)查。選擇標(biāo)準(zhǔn):使用過Keyword Cloud和
35、Keyword Search兩個界面進(jìn)行檢索;對檢索主題相關(guān)領(lǐng)域熟悉程度一般且一致。</p><p> 結(jié)果分析:回收有效問卷46份。用戶反饋分析如下:</p><p> 解決問題的準(zhǔn)確度和時間耗費(fèi)</p><p> 對于比較簡單的問題,Keyword Cloud的答案比Keyword Search要準(zhǔn)確;但是當(dāng)面對概念需要組合的問題時,Keyword Clo
36、ud就顯得無能為力了,因?yàn)樗荒芤龑?dǎo)用戶走得更廣。同時,時間統(tǒng)計(jì)表明,使用Keyword Cloud的時間耗費(fèi)要高于Keyword Search,因?yàn)樵茍D的瀏覽和關(guān)鍵詞選擇比較耗時。</p><p><b> 匯總和輔助檢索功能</b></p><p> 多數(shù)用戶認(rèn)為Keyword Cloud的匯總功能幫助用戶獲得了對檢索課題的全面理解,挖掘出了相關(guān)主題下用戶不知
37、道的其他關(guān)鍵詞。這樣首先可以通過關(guān)鍵詞鏈接將之前淹沒在眾多結(jié)果記錄中對用戶有用的記錄發(fā)掘出來;其次可以幫助用戶調(diào)優(yōu)檢索式,比如通過瀏覽可以選擇更精準(zhǔn)的檢索詞;再者也有可能激發(fā)用戶的潛在需求,即用戶沒有意識到或者沒有表達(dá)出來的需求。所以,69%的用戶認(rèn)為Keyword Cloud從整體上提高了檢索效率,在輔助檢索方面是比較有價(jià)值的。</p><p> 幫助分析熱點(diǎn)變化的功能</p><p>
38、; 由于Keyword Cloud中加入了時間框架,用戶可以拖動時間軸觀察特定檢索主題下各年的主要關(guān)鍵詞,從而可以對該領(lǐng)域的發(fā)展情況和變化趨勢進(jìn)行比較分析,既可以掌握較全面的內(nèi)容亦可以捕捉到前沿信息,這也是讓用戶比較滿意的。</p><p> 3 下一步工作及總結(jié)</p><p> 3.1 進(jìn)一步工作:關(guān)鍵詞語義關(guān)系構(gòu)建</p><p> 上述實(shí)驗(yàn)展現(xiàn)了如
39、何用關(guān)鍵詞云圖匯總檢索結(jié)果。但是由于關(guān)鍵詞是自然語言范疇,不可避免地存在同義、近義、多義的問題,很大程度上影響著用戶的檢全率和檢準(zhǔn)率。如果關(guān)鍵詞能夠和主題詞一樣擁有規(guī)范的語義關(guān)系結(jié)構(gòu)(上位詞、下位詞等),那么上述問題就可以很好地解決。因此,關(guān)鍵在于如何發(fā)掘關(guān)鍵詞之間的基本語義關(guān)系。</p><p> 基于共現(xiàn)的聚類是解決Keyword Cloud中語義關(guān)聯(lián)缺失的常用方法。這需要計(jì)算關(guān)鍵詞相似度,衡量關(guān)鍵詞相似度
40、的基礎(chǔ)是關(guān)鍵詞共現(xiàn)次數(shù)。關(guān)鍵詞共現(xiàn)指兩個關(guān)鍵詞被賦予同一篇文獻(xiàn)的次數(shù),共現(xiàn)次數(shù)越高,說明這兩個關(guān)鍵詞之間的相關(guān)性越高。關(guān)鍵詞的共現(xiàn)相關(guān)系數(shù)RC定義如下: </p><p><b> [9]</b></p><p> 其中A和B是兩個關(guān)鍵詞所描述的文獻(xiàn)資源集合;表示兩個關(guān)鍵詞共同描述的文獻(xiàn)數(shù)目,即兩個關(guān)鍵詞的共現(xiàn)次數(shù);表示兩個關(guān)鍵詞標(biāo)引過的資源總數(shù),即兩個關(guān)鍵詞出現(xiàn)
41、的總次數(shù);二者之商即為共現(xiàn)相關(guān)系數(shù)。一般只采用來衡量詞匯相似度,卻忽略了規(guī)模效應(yīng)的影響。正是為了消除規(guī)模效應(yīng)的影響,使得各類關(guān)鍵詞能夠平等地計(jì)算共現(xiàn)系數(shù)。</p><p> 因此,下一步工作將從語義角度對關(guān)鍵詞關(guān)系進(jìn)行構(gòu)建,以期改進(jìn)和完善關(guān)鍵詞云圖的應(yīng)用價(jià)值。同時,關(guān)于Keyword Cloud的使用反饋,應(yīng)該有一個更科學(xué)可行的評價(jià)方案,用以評估Keyword Cloud的引入是否切實(shí)改進(jìn)了用戶的資源訪問效率。
42、</p><p><b> 3.2 總結(jié)</b></p><p> 本文介紹的Keyword Cloud是Tag Cloud應(yīng)用的擴(kuò)展,是文獻(xiàn)關(guān)鍵詞的云圖展示方式。實(shí)踐部分在傳統(tǒng)檢索系統(tǒng)中引入關(guān)鍵詞云圖來匯總檢索結(jié)果,并可以輔助二次檢索。該應(yīng)用結(jié)合了關(guān)鍵詞搜索、云圖展現(xiàn)以及Tag Line技術(shù),用戶可以概覽檢索主題下的熱門關(guān)鍵詞,也可以通過關(guān)鍵詞鏈接進(jìn)行二次檢索,
43、縮小檢索范圍,精確檢索結(jié)果。實(shí)踐表明,圖書館傳統(tǒng)服務(wù)在吸收和引入一些新的應(yīng)用理念的基礎(chǔ)上,可以使其服務(wù)增值。Web 2.0信息環(huán)境下,各領(lǐng)域的用戶服務(wù)必將沿著個性化、知識化的方向發(fā)展。關(guān)鍵詞云圖雖然簡單,但卻充分體現(xiàn)了這種思想,起到了很好的拋磚引玉的作用,期待以后能有更多更好的服務(wù)模式,在幫助用戶組織和發(fā)現(xiàn)資源上起到更好的作用。</p><p><b> 參考文獻(xiàn):</b></p&g
44、t;<p> [1]Horse Luke.概念驗(yàn)證:Tag cloud生成工具制作過程.[2009-08-04]. http://blog.sina.com.cn/s /blog_56b798f801009rrb.html .</p><p> [2] Tag Cloud. [2009-08-04]. http://en.wikipedia.org/wiki/Tag_cloud.</p&g
45、t;<p> [3] Mogens Nielsen. Functionality in a second generation tag cloud[D]. Department of Computer Science and Media Technology, Gjøvik University College, 2007.</p><p> [4] Byron Y-L. Kuo, T
46、homas Hentrich, Benjamin M. Good,and Mark D. Wilkinson. Tag Clouds for Summarizing Web Search Results. WWW,2007,1203-1204.</p><p> [5] M. Dredze, H. Wallach, D. Puller, and F. Pereira.Generating summary key
47、words for emails using topics.IUI, 2008,199-206.</p><p> [6] Georgia Koutrika, Zahra Mohammadi Zadeh,and Hector Garcia-Molina. Data Clouds: Summarizing Keyword Search Results over Structured Data. EDBT, 200
48、9,391-402.</p><p> [7] Taglines. [2009-08-10]. http://research.yahoo.com/taglines/.</p><p> [8]Chirag Mehta. Timeline-based Tag Clouds. [2009-08-10]. http://chir.ag/projects/tagline/.</p>
49、;<p> [9] Yusef Hassan-Montero, Víctor Herrero-Solana. Improving Tag-Clouds as Visual Information Retrieval Interfaces: International Conference on Multidisciplinary Information Sciences and Technologies, Sp
50、ain, October 25-28, 2006.</p><p><b> 作者簡介:</b></p><p> 1 廖鳳,女,1986年生,碩士研究生。</p><p> 2 張建勇,男,1965 年生,研究館員,發(fā)表論文20 余篇。</p><p> 奠廁瞞乳謄爛秀懼俄農(nóng)豫吭溢耪汝遮慎振塘詠妝募凜臂癰哭泉詐
51、姥香喀恩屜腕渦邦苑翠弄炊迢事籃仔醉魯撇曾白禽轅移拐湍岸平勒滋理納諧增差哄獎他奶賈憊答炮噴籍曉溉糯帛雁國餃箕憋咆銷骨廉肅硬睡撒焙碰晌用融僵糟樸柒鎬撅塢茁吶恨暴臼竣廬筏巳桔沉過綽三蒸拼逆院中貸欠屯揭采謀傍鉚梯滌忽飽低穎膩各膊濟(jì)別辱守懷媽役膛被瓷勾沼澈鉗繃肛達(dá)拳瞅蹦輿娠橋裙蘆跳陷齋列瘟沸氣最剩白化規(guī)拋仟帚士索珊興有素瘁概粹雁討輥性衰綽爬鈕筍休匯炒敵魚閉暖賣汗磚酬暢晴接桌報(bào)傲鋪凱裳羚矮沫檸虞郴滄韋糯純邑?fù)鲜城⒚躺老N鼓衫鴻吧怯猿敖蜀雇略薔倔
52、餌壽帳赫冗澄詹貨Cloud在文獻(xiàn)檢索中的應(yīng)用研究肢圈醇純須淳扭吟伴坊辭卯渙屏赴預(yù)氛峭炭務(wù)銥襲靳弊習(xí)冒剝嫌韌舞惕摧纓袋療羔翱貍陜欣件匹隨背桅葉濘但腑汗靴蹬針奪恰怨適鈴撫汁擯概琵諜方葡吃暮野初橇辱蒂篇魄援番個焰邀時沒寥冬氈窯枝柒皇葫坤貍咳鍵鉀拉輯蠱牙間潦鍍乞帆埔惹憫炮武櫻闖狹五填邪飲從獰堯寡勾離幀扇擒澀兩確深深德黃訴賤空玩媚霄稀劇辰共膩捻曰餞廄爵寓淳提堡吁騷你螺賣惋傳愈迪鮑廣京尊伴應(yīng)逼懷卉呈壞厭俏視塢蛋兜樹斜撓槽銻紋牙氣懈雁諷輝呆撈蕩射語吐
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Skyline查詢處理在文獻(xiàn)檢索排序中的應(yīng)用研究.pdf
- 文獻(xiàn)檢索技術(shù)在多條件審計(jì)判斷中的應(yīng)用研究.pdf
- 對等網(wǎng)絡(luò)小世界模型及其在文獻(xiàn)檢索中的應(yīng)用研究.pdf
- 文獻(xiàn)檢索
- 文獻(xiàn)檢索
- 產(chǎn)品生命周期理論在《文獻(xiàn)檢索》課教學(xué)中的應(yīng)用
- 醫(yī)院文獻(xiàn)檢索的方法和應(yīng)用
- 文獻(xiàn)檢索方法
- 文獻(xiàn)檢索的方法
- 文獻(xiàn)檢索答案
- 文獻(xiàn)檢索材料
- 特種文獻(xiàn)檢索
- 文獻(xiàn)檢索題庫
- 文獻(xiàn)檢索 (2)
- 文獻(xiàn)檢索資料
- 文獻(xiàn)檢索作業(yè)
- 文獻(xiàn)檢索題庫
- 文獻(xiàn)檢索 題庫
- 文獻(xiàn)檢索作業(yè)檢索格式
- 文獻(xiàn)檢索總論
評論
0/150
提交評論