高校圖書館流通數據挖掘的新思路_第1頁
已閱讀1頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  高校圖書館流通數據挖掘的新思路</p><p>  〔摘要〕圖書館流通數據是圖書館業(yè)務流程優(yōu)化的重要依據之一,對其分析方法層出不窮,但用于指導圖書館實踐活動的甚少。本文通過參考與借鑒情報學基本定律與分析方法,重新定義并建立基于圖書借閱頻次的評價指標,即圖書半衰期、圖書集合普賴斯指數、圖書滯架指數、圖書h指數,以及基于讀者借閱次數與行為的分析方法,即讀者h指數等指標和圖書耦合/共現網絡模型,從

2、而提高對高校圖書館流通數據的分析能力和組織能力,希冀為優(yōu)化采購和布局配置,向讀者提供積極、主動、個性化信息服務提供新的思路。 </p><p>  〔關鍵詞〕OPAC數據;流通數據;高校圖書館;評價指標 </p><p>  DOI:10.3969/j.issn.1008-0821.2013.10.033 </p><p>  〔中圖分類號〕G251.5〔文獻標識碼

3、〕A〔文章編號〕1008-0821(2013)10-0143-06 </p><p>  圖書館借閱信息是伴隨著圖書館門戶公開化而誕生的副產品,但其在館藏采購、館藏管理、讀者需求分析等方面具有不可忽視的作用。隨著圖書館資源和管理數字化進程加快,每日都會從圖書館管理系統中產生龐雜的表單信息,如何讓信息從無序到有序,便于從中了解讀者借閱興趣與傾向、館藏圖書的利用率,有必要對流通數據進行深度剖析。但是對于借閱數據的深度

4、挖掘停留在研究層面的較多,付諸指導圖書館實踐的較少,為了避免陷入數據豐富但信息貧乏的尷尬局面,圖書館有必要增強對流通數據的分析能力和組織能力,并以此為客觀依據,向讀者提供積極、主動、個性化信息服務,這也與泛在圖書館所要求打破被動服務壁壘,提高以讀者驅動為導向的主動服務意識的宗旨相一致[1-2]。 </p><p>  1圖書館借閱數據利用現狀 </p><p>  目前國內外學者對于圖書館

5、流通數據的分析主要從以下4個方面開展: </p><p>  1.1利用統計學概念分析借閱數據 </p><p>  制定若干統計指標對圖書館流通數據進行頻次分析是最常見也是最簡便的方法,且統計結果具有一定參考價值。如對圖書館流通數據中的宏觀人次、書次指標進行統計,可以了解館藏利用和讀者用書的總體狀況;對個人借書、單本圖書借閱指標進行統計,能夠揭示不同讀者借閱特點和各類圖書的利用率;對高校

6、范圍內(非)出版物的引文進行統計,可以直觀得出本館館藏對校內讀者的滿足率[3-5]。 </p><p>  1.2采用數據挖掘技術進行讀者需求分析 </p><p>  大多數圖書館管理系統都是事務處理型[6],主要應用于日常業(yè)務操作,而數據倉庫是分析處理型,能夠從無序數據流中挖掘出讀者和圖書館員感興趣的信息:如建立一種基于模式識別中Mercer核聚類算法的自動分類和統計分析法,按照中圖法

7、22個大類對館藏圖書類型和借閱記錄進行量化編碼,實現讀者群分類以及對讀者借閱文獻類型、流量進行實時監(jiān)測和統計[7];或建立事務數據庫,基于Apriori算法[8-9]、改進算法FP-Growth[10]、鄰接矩陣[11]等挖掘圖書借閱數據的關聯規(guī)則,進而構建各學科書籍之間的關聯度以及讀者對圖書信息資源的借閱模式[12-14]。 </p><p>  1.3利用聚類法對讀者和圖書進行細分 </p>&

8、lt;p>  有學者利用Clementine兩步聚類模型對高校讀者進行聚類分析,將其分為積極型、一般型和消極型3類[15],或利用系統聚類算法建立圖書館讀者細分模型[16-17],并針對不同類型的讀者開展個性化服務,如制定不同借閱規(guī)則、賦予不同借閱權限;或利用K-means算法分別對圖書和讀者進行了聚類,從中分析圖書的借閱規(guī)律、讀者借閱圖書的某種傾向及讀者是否活躍,從而制定出相應的決策,以便有針對性地豐富館藏資源和優(yōu)化館藏布局,并

9、為圖書館開展個性化服務提供參考[18-19]。 </p><p>  1.4借鑒情報學評價指標分析流通數據 </p><p>  由美國學者Hirsh J提出的h指數最初用于評價科學家個人的學術成就[20],隨后經過多位學者在實證研究和理論分析基礎上進行擴展和延伸,h指數被成功應用到學術期刊評價、學術機構評價和專利質量評估等方面[21-22],而h指數的思想與方法在圖書管理中也值得借鑒。國

10、內有學者利用評價指標h指數分析圖書借閱數據,統計分析讀者群h指數與圖書集合h指數,揭示不同讀者群的借閱活躍度、不同圖書集合的核心讀者以及不同讀者群的核心圖書,客觀反應圖書利用狀況和讀者借閱情況,體現圖書集合和讀者群的個性化特點[23];由于h指數具有測算時間區(qū)域的敏感性,還可用于監(jiān)測圖書集合隨時間變化其借閱指標的波動情況[24]。 </p><p>  以上用于流通數據分析的方法各有利弊:基于統計學的頻次排序法雖

11、然能夠揭示最熱門圖書和讀者信息,但圖書副本數、新舊程度、排架位置、讀者借閱權限等因素都會干擾統計結果,且無法在圖書集合或讀者群之間進行客觀比較;利用數據挖掘技術、聚類算法和關聯分析挖掘讀者借閱模式、不同學科圖書間關聯以及細分讀者類型等,對于圖書館員的技術背景、操作規(guī)范上有較高要求,結果受人為參數設定影響較大,且不夠直觀;而借鑒h指數對圖書借閱數據進行分析,將圖書集合和讀者群視為評價對象,客觀比較圖書集合和讀者群之間差異,且對特定時間段的

12、波動較為敏感,但其在館藏老化進度、剔舊選擇、排架優(yōu)化等管理方面難以提供建設性意見,所以希望找出操作簡便、通用性強,同時具有直觀性與客觀性的分析方法。 </p><p>  2情報學基本定律橫向移植的可行性分析 </p><p>  筆者認為,圖書與期刊文獻作為信息和知識的載體,在利用與傳播的過程中具有相似的特征:隨著新知識的涌現,期刊文獻與圖書普遍存在老化現象,文獻的老化可以根據利用率和被

13、引頻次來測算,圖書的老化則可以通過借閱頻次和趨勢來反映,此外,同被引聚類分析是把若干文獻看作是具有相同屬性的集合,中圖分類法也是將主題相似的圖書歸為一類;讀者與文獻同樣也具有相似特征,讀者每次借閱的圖書可以反映出借閱傾向,則圖書可看作是讀者借閱行為的基本元素,而文章所提供的關鍵詞能夠體現文章主體思想,則關鍵詞可看作是文章的基本知識單元[25],關鍵詞具有詞耦合與詞共現現象,那么可以假設圖書借閱也有對應的圖書耦合與圖書共現情況,所以我們認

14、為適用于文獻信息的相關定律在圖書借閱中也可參照借鑒,甚至可以建立適用于圖書的老化定律、學科圖書半衰期和圖書普賴斯指數、館藏圖書滯架指數、圖書集合h指數、讀者群h指數、圖書借閱耦合/共現模型等分析方法和評價指標,為館藏圖書管理、讀者需求分析與服務提供新的解決思路。   3基于圖書被借的指標研究 </p><p>  3.1圖書老化規(guī)律研究 </p><p>  圖書館大部分館藏文獻是在逐漸

15、老化的,其利用率極低,這主要是圖書館文獻對讀者而言缺乏新穎性、針對性和實用性造成的,老化圖書不僅占據了圖書館有限的閱覽空間,加大了管理成本,而且給讀者查找圖書帶來不便,甚至影響到了圖書館的工作效率與窗口形象,所以及時剔除老化文獻、吐故納新是保持圖書館旺盛生命力的重要環(huán)節(jié)。圖書文獻的老化可以利用絕對流通量、平均利用率等指標來測度,但以單本圖書為研究對象或把所有圖書均一化看待的方法容易造成唯新是從的現象,而根據文獻26的研究結果[26],每

16、種館藏圖書從入藏至完全失去使用價值時的平均借閱次數S=K/b,K表示抽樣當年每種圖書的利用次數,b為一常數,可見館藏圖書利用率與統計當年每種圖書的利用次數正相關,所以頻繁采購同類型、相似內容圖書是促進圖書老化的重要因素之一。筆者認為只有研究不同類型圖書的老化趨勢與特點,優(yōu)化采購配置,才能真正提高高校圖書館的文獻利用率。 </p><p>  3.2學科圖書半衰期 </p><p>  19

17、60年,巴爾頓和開普勒提出了文獻情報的半衰期概念[27]:某學科或專業(yè)現今仍在利用的全部文獻中較新的一半是在多長一段時間內發(fā)表的(共時半衰期),與該學科一半文獻失效所經歷時間相當(歷時半衰期)。也可借鑒文獻半衰期的概念定義學科圖書半衰期:特定統計時間段內,某學科或主題圖書集合仍在流通(包括借閱與歸還)的全部圖書中教新的一半是在多長時間內出版的(共時半衰期);某學科或主題圖書集合一半圖書失去使用價值,即不再流通所經歷的時間(歷時半衰期)。

18、并且可以利用作圖法(所有測試數據均取自于北京大學醫(yī)學圖書館Unicorn系統),以某學科圖書出版年為橫坐標,統計時間段內被借閱累積頻次或累積百分比為縱坐標,繪制學科圖書共時半衰期圖(圖1);以圖書被借閱年代為橫坐標,統計截止時間之前被借閱累積頻次或累積百分比為縱坐標,繪制學科圖書歷時半衰期圖(圖2),其中累積百分比達到50%的點所對應橫坐標,即為半衰期觀測點,從圖1和圖2可以大致估算出R36病理學類圖書的半衰期為8年。1圖1R36類圖書

19、共時半衰期圖1 </p><p>  1圖2R36類圖書歷時半衰期圖1 </p><p>  3.3圖書普賴斯指數 </p><p>  普賴斯指數是度量文獻老化速度與程度的指標,在文獻計量學研究中,普賴斯將被引文獻分成有現時作用的文獻和檔案性文獻,前者是指文獻在其出版的5年內被引用,后者則是指出版5年后仍被引用,現時作用的文獻在總文獻中的比值即為普賴斯指數,可見普

20、賴斯指數越大,該學科文獻老化越快。借鑒普賴斯指數的機理,定義學科圖書普賴斯指數:某統計時間段內某類被借閱的圖書(如R4類圖書)中出版不超過X年的圖書數量占全部被借閱圖書的比例。其中X的確定,應以特定圖書館某統計時間段內所有流通的圖書為大樣本,統計較新的一半圖書的最早出版年代,則當前統計時間與其差值為X。該指標還適用于其他圖書集合,如特定出版社的圖書、特定作者出版的圖書等。 </p><p>  3.4館藏圖書滯架

21、時限 </p><p>  隨著館藏圖書老化,圖書的利用率和借閱量降低,這不僅占據了有限的借閱空間,而且增加了管理成本和難度,故大部分高校圖書館都會定期進行剔舊工作,但剔舊并不完全等同于剔除陳舊或破損的圖書。美國圖書館專家特魯斯威爾提出了藏書利用的二八法則:在圖書館的全部藏書中大約有20%的圖書能夠滿足近80%讀者的需求,而其余80%的圖書僅能夠滿足20%讀者的需求。因此,剔除利用率低的圖書才是館藏剔舊的重點,而

22、研究表明,滯架時限是衡量館藏利用率和剔舊數量的最佳指標[28]。滯架時限指的是單本圖書最后流通時間(借閱日期或還書日期)與統計截止日期之間的差值,默認圖書借閱時限為30天,并不可續(xù)借,滯架時限的統計區(qū)間為0~11個月(如表1)。 </p><p>  3.5學科圖書h指數 </p><p>  h指數是J.E.Hirsh于2005年提出的一項旨在評價科學家個人績效的指標,其定義為[20]:

23、將科學家S發(fā)表的論文按照被引次數從高到低的順序排列,相同被引次數的論文具有不同的序列號,當且僅當前h篇論文每篇論文的被引次數至少為h,同時第h+1篇論文的被引次數小于h+1時,則科學家S的h指數值為h。通過上文的可行性分析,我們認為特定類型的圖書集合也可以有“h指數”:將某時間段內某主題圖書(如中圖法R322)按照借閱頻次進行排序(多副本圖書采用借閱頻次/副本數的值作為的相對借閱頻次),相同借閱次數的圖書具有不同序號(按照出版時間倒序排

24、列),形成圖書數量與借閱頻次的數據序列,參照h指數原定義,當且僅當前h本圖書每本借閱頻次至少為h,同時第h+1本書借閱頻次小于h+1時,該主題圖書的h指數為h。如表2所示,統計時間段內,某類圖書至少有4本被至少借閱4次,則該類圖書的h指數為4,那么可以確定該類圖書中借閱頻次大于等于4的為核心圖書。此外,時間段可以設定為年度、學期、月份,從而揭示特定時期的借閱需求特征,甚至可以制定圖書與時間的關聯規(guī)則,在圖書管理系統中進行薦閱與提示。&l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論