大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應對策略_第1頁
已閱讀1頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應對策略</p><p>  〔摘要〕文章首先闡述了大數(shù)據(jù)的特征與內涵,指出了大數(shù)據(jù)在圖書館工作中的重要性及兩者之間的關系,分析了大數(shù)據(jù)所帶來的數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)挖掘等方面的挑戰(zhàn)。然后研究了圖書館應從數(shù)據(jù)管理、數(shù)據(jù)技術及數(shù)據(jù)隊伍建設上所采取的策略。最后探討了大數(shù)據(jù)驅動下的圖書館服務新模式,如基于數(shù)據(jù)整合的一站式資源服務,基于數(shù)據(jù)處理的學科知識服務、信息可視化

2、服務及基于數(shù)據(jù)挖掘的個性化智慧服務。 </p><p>  〔關鍵詞〕大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)挖掘;數(shù)據(jù)服務;圖書館 </p><p>  DOI:10.3969/j.issn.1008-0821.2013.05.003 </p><p>  〔中圖分類號〕G250〔文獻標識碼〕A〔文章編號〕1008-0821(2013)05-0009-05 </p>

3、<p>  隨著社會高速的發(fā)展,泛互聯(lián)網(wǎng)的進程加快,數(shù)據(jù)量的增加已經(jīng)到達了前所未有的速度。Facebook每天生成300TB(注:1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB)以上的日志數(shù)據(jù),Google公司每個月處理的數(shù)據(jù)量超過400PB,百度每天約處理幾十PB數(shù)據(jù),淘寶網(wǎng)每天交易能產(chǎn)生約20TB數(shù)據(jù)[1]。根據(jù)國際數(shù)據(jù)公司IDC 2011年發(fā)布的Digital Universe

4、Study,全球信息總量每過2年,就會增長1倍。僅在2011年,全球被創(chuàng)建和被復制的數(shù)據(jù)總量為18ZB,且每年以60%增加,2020年全球每年產(chǎn)生的數(shù)字信息將達到35ZB[2]。數(shù)據(jù)的爆炸式增長超出人們的想象,“大數(shù)據(jù)”(Big Data)時代已經(jīng)來臨。大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)以后,信息科技等行業(yè)又一次大的技術變革。 </p><p>  最早提出“大數(shù)據(jù)”概念是麥肯錫公司(Mckinsey and Compan

5、y)。2011年5月,麥肯錫公司在大數(shù)據(jù)的報告中指出[3]:數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素。其后,大數(shù)據(jù)迅速成為政府及信息科技等行業(yè)關注的熱點。2012年3月,美國政府啟動“大數(shù)據(jù)研究和發(fā)展計劃”,將“大數(shù)據(jù)研究”上升為國家戰(zhàn)略高度[4];一些著名企業(yè)如IBM、EMC、Microsoft開始對大數(shù)據(jù)進行研究。大數(shù)據(jù)最典型的應用是在沃爾瑪公司利用大數(shù)據(jù)技術創(chuàng)造的“啤酒與尿布”的經(jīng)典商業(yè)案例[5]。互聯(lián)網(wǎng)企業(yè)

6、Google及Facebook之所以取得令人矚目的成績,其核心的本質就是其公司記錄和分析了用戶網(wǎng)絡操作的大數(shù)據(jù),從而精確掌握用戶行為、形成預判。圖書館是信息搜集、存儲和進行知識服務的機構。在大數(shù)據(jù)時代下,如何進行數(shù)據(jù)管理;如何以“大數(shù)據(jù)”為基礎,幫助用戶從海量的數(shù)據(jù)中快捷發(fā)現(xiàn)與獲取信息資源;如何挖掘用戶行為特征,實現(xiàn)個性化、定制化的智慧服務等等都是圖書館面臨的新的挑戰(zhàn)與機遇。本文對此進行了深入的分析與研究,主要闡述了大數(shù)據(jù)帶給圖書館的影

7、響與挑戰(zhàn),分析了大數(shù)據(jù)對圖書館的重要性,重點探</p><p>  1大數(shù)據(jù)的特征與內涵 </p><p>  什么是大數(shù)據(jù)?目前,還沒有一個統(tǒng)一的定義,簡單一點可以理解為超出傳統(tǒng)數(shù)據(jù)管理工具處理能力的大規(guī)模、復雜的數(shù)據(jù)集合。IBM公司認為大數(shù)據(jù)具有“3V”特點,即種類(Variety)多、速度(Velocity),快、容量(Volume)大[6]。但以IDC為代表的業(yè)界將其歸納為具有“4

8、V”特征——海量(Volume)、多樣性(Variety)、高速(Velocity)和易變性(Variability)。不管是“3V”,還是“4V”,其內涵包含了以下這些特性。第一,數(shù)據(jù)體量巨大。“大”是指數(shù)據(jù)規(guī)模,一般指在10TB規(guī)模以上的數(shù)據(jù)量。一部《史記》,共526 500字,約1MB數(shù)據(jù),一組用于基因研究的染色體照片數(shù)據(jù)量超過2TB。第二,數(shù)據(jù)類型繁多。這種類型的多樣性也讓數(shù)據(jù)被分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。互聯(lián)網(wǎng)的迅猛發(fā)展,現(xiàn)

9、在的數(shù)據(jù)類型早已不是單一的文本形式,還包含了大量的網(wǎng)絡日志、微博、視頻、圖片、郵件等大量的半結構化與非結構化數(shù)據(jù)。第三,價值密度低。價值密度的高低與數(shù)據(jù)總量的大小成反比。大數(shù)據(jù)中有很多垃圾,有很多不相關的信息,只有一些有用的信息隱藏在大數(shù)據(jù)信息里面。以視頻為例,一部一小時的視頻監(jiān)</p><p>  隨著信息化建設的發(fā)展,圖書館除了本身包含的大量數(shù)字資源外,日益增長的電子資源,高速網(wǎng)絡及移動圖書館的普及,云計算、

10、RFID、語義網(wǎng)、社交網(wǎng)絡等新技術的發(fā)展提供了廣泛的數(shù)據(jù)來源,圖書館正在迎接大數(shù)據(jù)時代的到來。 </p><p>  21各種電子資源(電子書刊,多媒體資源等)的積累,給圖書館提供了海量數(shù)據(jù)信息技術的發(fā)展極大地促進了圖書館數(shù)字資源的生產(chǎn),形成了包括電子圖書、電子期刊、數(shù)據(jù)庫、音視頻資源、網(wǎng)絡資源在內的海量數(shù)字資源,電子資源種類和數(shù)量正在超越紙本資源。據(jù)調查,全球新產(chǎn)出的信息量每3年翻一番,大約90%的信息都是以數(shù)

11、據(jù)形式儲存。截至2011年底,中文網(wǎng)頁數(shù)量達866億個,年增長率達443%。文獻的出版方式發(fā)生巨大的變化,數(shù)字出版日益普及,截至2010年底,中國電子書總量已達115萬種,年新增18萬種。單獨出版的數(shù)字報已達700份以上,電子期刊已近萬種。2010年底,清華圖書館機房有110臺服務器,集中存儲170TB,國家圖書館資源總量達到470TB。這些資源分布在不同的系統(tǒng)中,形態(tài)不同,組織方式各異,既包括傳統(tǒng)文獻的數(shù)字化,也包括各種類型的原生數(shù)字

12、資源,還包括其它虛擬館藏等各種多媒體資源。各種電子資源的積累,給圖書館提供了海量數(shù)據(jù)。 </p><p>  22智能手機、高速網(wǎng)絡及移動圖書館的普及, 使數(shù)據(jù)量呈現(xiàn)指數(shù)上升的趨勢信息技術、網(wǎng)絡技術迅猛發(fā)展,手機上網(wǎng)、數(shù)字電視等跨網(wǎng)絡等業(yè)務發(fā)展迅速。截至2011年底,我國網(wǎng)民人數(shù)達513億,互聯(lián)網(wǎng)普及率達383%,手機用戶已突破9億人,其中手機上網(wǎng)達356億,數(shù)字電視用戶超過1 000萬戶,以上為數(shù)字圖書館提供了

13、基于多網(wǎng)絡平臺的信息傳輸途徑和服務渠道。近幾年,移動設備如雨后春筍,智能手機、平板電腦為學習者提供了新的學習途徑,并以其它設備無法比擬的優(yōu)勢提高學習體驗并與人產(chǎn)生更多的交互,使得數(shù)據(jù)快速增加。自2003年以來,移動圖書館越來越普及,移動閱讀,移動搜索等服務類型也不斷增加。未來3年內,移動設備所產(chǎn)生的數(shù)據(jù)量呈現(xiàn)翻倍的趨勢。   23云計算、RFID、語義網(wǎng)、社交網(wǎng)絡等新技術的發(fā)展,為大數(shù)據(jù)提供了廣泛的數(shù)據(jù)來源云計算的到來,突破了傳統(tǒng)圖書

14、館發(fā)展局限,超強的數(shù)據(jù)處理能力,信息資源的整合,動態(tài)資源分配,簡化的IT結構,云計算為大數(shù)據(jù)的誕生創(chuàng)造了物質基礎。利用RFID技術,可實現(xiàn)圖書自動借還,智能盤點,自動分揀,圖書位置與信息的實時跟蹤導航。以Facebook、Twitter/微博為代表的社會</p><p>  由此可知,信息時代的發(fā)展使得圖書館具備大數(shù)據(jù)的特征??茖W研究和科技創(chuàng)新越來越依賴于對數(shù)據(jù)的管理和利用,學科知識服務依賴于大數(shù)據(jù)的分析與挖掘。

15、但是,要面臨的數(shù)據(jù)非常復雜,圖書館將遇到很多挑戰(zhàn)。 </p><p>  3大數(shù)據(jù)時代下圖書館的挑戰(zhàn)與建設策略 </p><p>  大數(shù)據(jù)不僅挑戰(zhàn)圖書館傳統(tǒng)的IT架構與數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)處理的模式,而且來自數(shù)據(jù)管理及數(shù)據(jù)應用、數(shù)據(jù)服務對圖書館的挑戰(zhàn)將更為突出。但從潛在的機會看,數(shù)據(jù)量的增加為圖書館提供了精確把握用戶群體和個體網(wǎng)絡行為模式的基礎,如果能夠充分利用,就可以探索個性化,精

16、確化和智能化地進行推送和服務,幫助用戶從海量的信息中迅速找到所需要的信息,提升圖書館的數(shù)字知識服務水平,促進數(shù)字圖書館領域的發(fā)展。當前,圖書館的大數(shù)據(jù)挑戰(zhàn)主要集中在以下3個方面: </p><p>  問題一:傳統(tǒng)的網(wǎng)絡架構不適應“大數(shù)據(jù)”時代 </p><p>  傳統(tǒng)的網(wǎng)絡結構設計是以用戶端向服務器發(fā)出請求,由服務器應答返回結果給客戶的垂直結構。而在大數(shù)據(jù)時代,這種垂直結構的服務請求將

17、變得越來越少,取而代之的是水平結構的橫向請求服務?!按髷?shù)據(jù)”時代,大量的數(shù)據(jù)都存儲在分布廣泛、不同地域、各種類型的服務器中。當用戶發(fā)出一個搜索或查詢請求時,最多的運算是服務器之間的信息交換,最后將結果返回給用戶。傳統(tǒng)的網(wǎng)絡架構已經(jīng)不能滿足大數(shù)據(jù)時代網(wǎng)絡應用需求。新一代網(wǎng)絡架構要適應Web20時代的水平服務應用[7]。 </p><p>  問題二:數(shù)據(jù)中心將面臨巨大壓力 </p><p>

18、  傳統(tǒng)的數(shù)據(jù)倉庫是通過ETL工具將數(shù)字資源中的數(shù)據(jù)抽取到數(shù)據(jù)倉庫進行集中存儲和管理,然后組織數(shù)據(jù)進一步從數(shù)據(jù)倉庫中讀取及訪問數(shù)據(jù),并進行數(shù)據(jù)分析。但在大數(shù)據(jù)時代,圖書館數(shù)據(jù)庫里的內容不僅僅是多,而且結構已發(fā)生了極大改變,不是以二維表的規(guī)范結構存儲。大量的數(shù)據(jù)是非結構化的辦公文檔、文本、圖片、XML、HTML、各類報表、圖片和音頻/視頻等,面臨如此大量的非結構化數(shù)據(jù),其移動和修改將耗費大量的人力物力,數(shù)據(jù)移動代價太高,讀取效率也將越來越

19、低。更多的網(wǎng)絡設備將同時訪問數(shù)據(jù)中心,傳統(tǒng)數(shù)據(jù)中心難以適應快速變化,面臨巨大壓力[7]。 </p><p>  問題三:如何快速找到自已的資源,如何獲取、管理和分析這些用戶信息行為數(shù)據(jù)并加以利用及服務。 </p><p>  在大數(shù)據(jù)時代,用戶面對眾多圖書館的數(shù)據(jù)資源,深受大數(shù)據(jù)所帶來的困擾,很難方便、快捷、準確地檢索到所需數(shù)據(jù)資料。2011年麥肯錫公司在報告中指出全球新的數(shù)據(jù)不斷增長,但

20、是卻有875%的數(shù)據(jù),并沒有形成真正的知識源以供研究人員利用[3]。 </p><p>  大數(shù)據(jù)時代,圖書館面臨大數(shù)據(jù)管理、技術和應用等方面存在的問題和挑戰(zhàn),對這些問題的思考,未來圖書館,是以數(shù)據(jù)為紐帶,其形態(tài)將從物理圖書館逐漸轉變?yōu)椤皵?shù)據(jù)圖書館”及“智慧圖書館”。由此,圖書館應采取以下應對策略: </p><p>  31管理層次上:成立數(shù)據(jù)管理部門與機構,制定數(shù)據(jù)管理政策、統(tǒng)一的標準

21、及共享平臺大數(shù)據(jù)建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運行機制,以促進建設過程中各個環(huán)節(jié)的正規(guī)有序,實現(xiàn)統(tǒng)合,搞好頂層設計。為此,圖書館應成立新的數(shù)據(jù)管理部門,負責數(shù)據(jù)管理,建立統(tǒng)一的數(shù)據(jù)獲取、使用、管理、分享的政策,加強校內,外各部門的數(shù)據(jù)協(xié)調工作。如在美國高校中,現(xiàn)在有些學校如MIT、弗吉尼亞大學及康奈爾大學圖書館成立了專門的“研究數(shù)據(jù)管理服務工作組(RDMSG)”,負責有關數(shù)據(jù)管理中所涉及的問題:如元數(shù)據(jù)標

22、準、數(shù)據(jù)存儲、數(shù)據(jù)共享和重用、數(shù)據(jù)管理計劃、處理數(shù)據(jù)版權和合理使用數(shù)據(jù)問題、舉辦知識產(chǎn)權、開放數(shù)據(jù)、開放科研等主題的培訓和講座、研究數(shù)據(jù)知識庫的評估、管理、推介、導航服務等[8]。 </p><p>  32技術層次上:構建圖書館大數(shù)據(jù)架構,研究解決大數(shù)據(jù)采集、存儲,處理及分析相關技術問題大數(shù)據(jù)技術是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術。迎戰(zhàn)大數(shù)據(jù),進行技術前傾

23、是關鍵。要把大數(shù)據(jù)作為一系統(tǒng)工程來考慮,從數(shù)據(jù)采集,數(shù)據(jù)存儲到數(shù)據(jù)處理,數(shù)據(jù)分析及數(shù)據(jù)應用等方面考慮,構成圖書館大數(shù)據(jù)架構圖,見圖1。 </p><p>  在大數(shù)據(jù)技術中,從圖書館系統(tǒng)角度,主要解決下面幾方面的關鍵技術: </p><p>  321大數(shù)據(jù)的統(tǒng)一表示及融合 </p><p>  圖書館大數(shù)據(jù)中包括越來越多不同格式的數(shù)據(jù),從電子資源,到簡單的電子郵件

24、、數(shù)據(jù)日志和閱讀記錄,社交網(wǎng)絡,再到實驗等科研中收集到的科學研究數(shù)據(jù)以及豐富的媒體數(shù)據(jù)(包括課件,照片、音樂、視頻資源等),這些不同格式的數(shù)據(jù)也需要不同的處理方法,給我們處理數(shù)據(jù)帶來了一定麻煩。從某種意義上來說,目前表示數(shù)據(jù)的方法,不一定能直觀地展現(xiàn)出數(shù)據(jù)本身的意義。數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的重大價值。大數(shù)據(jù)面臨的一個基本問題是各種數(shù)據(jù)和信息能否規(guī)范、統(tǒng)一的表示及方便地融合,構建文獻與數(shù)字資源體系。因此,要研究通過對海量的,來自異構資

25、源的數(shù)據(jù)和各種對象數(shù)據(jù)進行抽取、映射、收割、導入等手段進行預收集,歸并映射到一個標準表達式,進行預聚合及融合,形成格式統(tǒng)一,內容豐富、結構清晰的數(shù)據(jù),靈活構建各種分類和界面,按照知識本體進行組織和揭示,進而保障強大高效的檢索能力和良好的結果相關度排序。   322解決大數(shù)據(jù)量存儲的問題 </p><p>  在大數(shù)據(jù)的挑戰(zhàn)問題中,大數(shù)據(jù)的第一個關鍵技術問題:就是對大數(shù)據(jù)的高效率存儲和訪問需求,對數(shù)據(jù)庫高可擴展性

26、和高可用性的需求,隨著數(shù)據(jù)庫技術以及云計算技術的迅猛發(fā)展,大規(guī)模數(shù)據(jù)存儲要借助非關系型的數(shù)據(jù)庫分析技術——NoSQL、MapReduce和Hadoop。它們的優(yōu)勢具有大規(guī)模并行處理、簡單易用等特點,非常適合非結構數(shù)據(jù)處理,也成為大數(shù)據(jù)分析領域的主流技術。大數(shù)據(jù)存儲也可采用基于云計算的分布式存儲技術,利用分布式的數(shù)據(jù)云存儲技術和與之相關的虛擬技術使得整合后的圖書館海量數(shù)據(jù)更加統(tǒng)一有序,能夠方便快捷地通過網(wǎng)絡,根據(jù)需求訪問計算與存儲等服務。

27、 </p><p>  323解決非結構化數(shù)據(jù)的分析和挖掘的問題 </p><p>  大數(shù)據(jù)中包含數(shù)據(jù)信息量大且復雜多樣,因此數(shù)據(jù)分析和挖掘工作具有重要作用。傳統(tǒng)的數(shù)據(jù)挖掘對關系型數(shù)據(jù),非結構化的、半結構化的數(shù)據(jù)顯得力不從心。對于圖書館大數(shù)據(jù)中,待處理的非結構化數(shù)據(jù)與讀者興趣密切相關,通過分析讀者顯性行為和挖掘隱性行為,為讀者提供個性化服務。目前使用的推薦方法是基于內容的推薦方法和協(xié)同過

28、濾的推薦方法。協(xié)同過濾算法是目前最為成功的算法,但依然存在讀者興趣變化、數(shù)據(jù)稀疏性、讀者評分的真實性及差異性等問題,根據(jù)讀者信息數(shù)據(jù)構建個性化讀者行為模型,結合基于讀者行為的協(xié)同過濾算法,挖掘模型中存在的規(guī)則,從而產(chǎn)生個性化服務值得研究。 </p><p>  33隊伍建設上:培養(yǎng)一支高素質的數(shù)據(jù)管理的館員隊伍大數(shù)據(jù)環(huán)境下,圖書館傳統(tǒng)的管理模式、工作內容、工作方式發(fā)生了本質的變化。而目前不斷增長的數(shù)據(jù)共享和數(shù)據(jù)管

29、理需求為圖書館服務開辟了新的領域,圖書館需要抓住這個機遇,盡快開展數(shù)據(jù)管理服務,拓展支持研究的服務內容和能力,使圖書館員成為數(shù)據(jù)管理服務的提供者。美國國家科學委員會(NSB)提出的以數(shù)據(jù)獲取、處理、保存、分析、利用和可視化為職業(yè)的"數(shù)據(jù)科學家(Data Scientist)中,其中含信息與計算機科學家,學科專家、數(shù)據(jù)處理員及圖書館員等。美國研究圖書館協(xié)會也已提出,研究數(shù)據(jù)管理將成為下一代圖書館員的能力之一[9-10]。因此必須

30、培養(yǎng)和造就一支懂技術、懂管理的大數(shù)據(jù)建設專業(yè)隊伍。當前的任務是如何在現(xiàn)有基礎上,拓寬館員知識面,增強業(yè)務能力,培養(yǎng)出能滿足圖書館數(shù)據(jù)服務需求的高素質的“數(shù)據(jù)館員”,并使之成為學科信息資源的組織者、傳播者、導航者、教育者,促進圖書館事業(yè)更好的發(fā)展。 </p><p>  4基于大數(shù)據(jù)的圖書館的服務模式研究 </p><p>  大數(shù)據(jù)時代下的圖書館將從“物理圖書館”轉變?yōu)椤皵?shù)據(jù)圖書館”。圖書

31、館服務不管是服務的方式、途徑、模式等也都將發(fā)生改變。從服務的理念上轉變?yōu)榛跀?shù)據(jù)的服務。以“大數(shù)據(jù)”為基礎,圍繞從數(shù)據(jù)匯聚到信息加工,知識服務,智慧服務的四個層次展開服務,見圖2。下面具體對數(shù)據(jù)驅動下的圖書館的服務模式進行分析研究。 </p><p>  41基于數(shù)據(jù)整合的一站式資源服務 </p><p>  大數(shù)據(jù)時代下,數(shù)據(jù)資源是海量的,理論上一個圖書館可以收集所有的數(shù)據(jù)資源,如各類文

32、獻資源,科研成果,學術交流,甚至包括各種訪問,社交等日志信息等各種網(wǎng)絡資源等。但是,這些數(shù)據(jù)來源于不同的機構知識庫或讀者個人,圖書館可以充分利用機構優(yōu)勢有組織地通過對各類數(shù)據(jù)源的定位和連接,實現(xiàn)數(shù)據(jù)的采集、傳輸和匯聚。鼓勵讀者開放存取各種數(shù)字資源,使用戶不僅是資源的接受者和學習者,而且是資源的的發(fā)布者和貢獻者[11]。由于數(shù)據(jù)資源具有數(shù)量巨大、類型多樣、變化快、無序等特點,因此很有必要建立數(shù)據(jù)的統(tǒng)一標準,迎合對于飛速增長的異構系統(tǒng)進行有

33、效整合的需求。提供資源之間的無縫鏈接,提供各種數(shù)據(jù)管理服務,包括存儲備份、元數(shù)據(jù)加工、數(shù)據(jù)發(fā)布,數(shù)據(jù)共享等。在數(shù)據(jù)的洪流中,異構、分布和海量的各種數(shù)據(jù)資源得以匯聚及融合,形成中心知識庫,通過預索引的方式,為用戶提供快速,簡單,易用的資源發(fā)現(xiàn)及獲取服務,建立一站式數(shù)據(jù)資源服務平臺[8]。 </p><p>  42基于數(shù)據(jù)分析的學科知識服務 </p><p>  圖書館作為知識服務平臺,通過

34、對匯集數(shù)據(jù)的加工整理,數(shù)據(jù)建模,提高數(shù)據(jù)的價值密度。探索以數(shù)據(jù)為基礎的知識發(fā)現(xiàn)分析,通過基于數(shù)據(jù)的增值服務,面向用戶、滿足用戶的學科知識需求,開展知識服務。如以學科為基礎,將不同學科用戶的檢索瀏覽下載的信息行為數(shù)據(jù)進行分類;分析用戶檢索瀏覽下載的文獻(全文、摘要、關鍵詞)特征,加入時間緯度,歸納出某個學科某一時期的用戶感興趣的主題;利用數(shù)據(jù)挖掘、數(shù)據(jù)檢驗、相關性分析、回歸分析、聚類分析、社會網(wǎng)絡分析等進行學科熱點預測和交叉學科分析研究。

35、構建基于圖書館流通日志的圖書借閱數(shù)據(jù)倉庫維度模型,構建基于OPAC日志點擊流數(shù)據(jù)倉庫,基于大數(shù)據(jù)的關聯(lián)關系分析,發(fā)現(xiàn)及展示學者、合作者、期刊、會議、文章之間的知識網(wǎng)絡;基于大數(shù)據(jù)的學科趨勢分析,通過對大數(shù)據(jù)的有序處理來提升圖書館服務的品質。 </p><p>  43基于數(shù)據(jù)應用的信息可視化服務 </p><p>  大數(shù)據(jù)中包含大量重要信息,人們期待進行深層次分析,以便更好的從數(shù)據(jù)中發(fā)現(xiàn)

36、知識。信息可視化作為一種關鍵服務理念與技術手段,在處理復雜異構的圖書館大數(shù)據(jù)方面有很大的優(yōu)勢,能為用戶提供了一個方便易用的知識環(huán)境。如從檢索過程、檢索結果以及結果之間關系的角度實現(xiàn)主題可視化,到數(shù)據(jù)庫分布可視化、時間分布可視化和作者合著關系可視化。也可將信息可視化技術與科學計量學方法等相結合,生成具有各種屬性的科學地圖,表達學科、領域、專業(yè)、文獻、著者之間的關系,解釋知識領域的結構、映射知識領域的發(fā)展趨勢,促進信息獲取、使知識結構更加明

37、顯,將數(shù)據(jù)集中看不見的抽象數(shù)據(jù)和數(shù)據(jù)之間的語義關系以一種可視化的方式呈現(xiàn)在用戶場景中。讓用戶充分發(fā)掘信息資源中潛在的價值資源,幫助用戶更好地組織、分析與利用信息。信息可視化作為將信息有效組織、分析、揭示的一種新技術,為大數(shù)據(jù)提供了一種新的服務模式。 </p><p>  44基于數(shù)據(jù)挖掘的智慧服務 </p><p>  隨著讀者對知識需求的轉變,知識服務正在朝個性化,智慧化的方向發(fā)展。個性

38、化服務是基于讀者對信息使用行為習慣及對信息的特定需求,是一種在分析預測用戶個體信息需求基礎上向用戶主動提供其可能需求但又無法獲取的信息資源的服務方式,是解決海量信息困惑問題的重要方法。智慧服務是知識服務的升華。智慧服務則是建在知識服務基礎上的的創(chuàng)造性服務模式,是圖書館知識服務的核心。圖書館大數(shù)據(jù)存在大量的用戶信息行為產(chǎn)生的數(shù)據(jù),如用戶查詢書目產(chǎn)生的OPAC日志,用戶借還書產(chǎn)生的流通日志數(shù)據(jù),用戶檢索瀏覽下載電子資源產(chǎn)生的日志數(shù)據(jù),用戶訪

39、問產(chǎn)生的流量數(shù)據(jù)及各種社交網(wǎng)絡等。這些數(shù)據(jù)中除了用于記錄讀者的個人信息外,還隱藏著許多重要的信息,因此可通過對這些數(shù)據(jù)進行挖掘分析,知識發(fā)現(xiàn)、智能代理等技術,描述用戶的行為,準確定位讀者需求,向讀者提供主動式推送服務,滿足其個性化的智能服務。   5結語 </p><p>  數(shù)字信息的爆炸式增長催生出“大數(shù)據(jù)”概念,正席卷整個IT相關行業(yè),大數(shù)據(jù)已經(jīng)漸漸的滲入到了圖書情報工作中,挑戰(zhàn)與機遇同在。展望未來,大數(shù)

40、據(jù)服務技術等熱點將不斷涌現(xiàn),將對圖書館知識服務的拓展和深化帶來重大影響,未來的工作將是“數(shù)據(jù)驅動”的圖書情報工作。本文重點探討了在大數(shù)據(jù)時代下圖書館的建設策略及基于大數(shù)據(jù)的一站式服務,學科知識及個性化智慧服務等服務模式。但是圖書館的大數(shù)據(jù)技術及服務是一項復雜的系統(tǒng)工程,涉及到數(shù)據(jù)管理的水平,數(shù)據(jù)處理的技術及數(shù)據(jù)服務的創(chuàng)新等等,均需要圖書館員的共同努力。 </p><p><b>  參考文獻 </

41、b></p><p>  [1]李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012,(9):8-15. </p><p>  [2]海量數(shù)據(jù)爆發(fā)大數(shù)據(jù)時代來臨的五個轉變[EB/OL].http:∥labs.chinamobile.com/news/76217,2012-08-01. </p><p>  [3]Big data:The next

42、frontier for innovation,competition,and productivity[EB/OL].http∥www.mckinsey.com/Insights/MGI/Research/TechnologyandInnovation/BigdataThenextfrontierforinnovation,2011-05. </p><p>  [4]Big Data is a Big Dea

43、l[EB/OL].http:∥www.whitehouse.gov/blog/2012/03/29/big-data-big-deal,2012-03-29. </p><p>  [5]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學出版社,2008. </p><p>  [6]MapR and Informatica Combine to Conquer Volume,Var

44、iety and Velocity of Big Data[EB/OL].http:∥www.dbta.com/Articles/Editorial/News -Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx,2012-07-21. </p><p>  [

45、7]王珊,王會舉,覃雄派,等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011,(10):1741-1752. </p><p>  [8]馬建玲,祝忠明,王楠,等.美國高校圖書館參與研究數(shù)據(jù)管理服務研究[J].圖書情報工作,2012,(21):77-82. </p><p>  [9]Geoffrey Little.MANAGING TECHNOLOGY·Managin

46、g the Data Deluge[J].The Journal of Academic Librarianship,2012,(5):263-264. </p><p>  [10]王學勤,Amy Stout,Howard Silver.建立數(shù)據(jù)驅動的e-Science圖書館服務:機遇和挑戰(zhàn)[J].圖書情報工作,2011,(13):80-83. </p><p>  [11]張曉林,李麟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論