版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的方法和流程 趙陽zhaoyang@lib.tsinghua.edu.cn清華大學(xué)圖書館 學(xué)位論文項目組2007.09.27 南京,主要內(nèi)容:,“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實施步驟,NOW,“CALIS 學(xué)位論文數(shù)據(jù)庫”服務(wù)體系架構(gòu),,,參建館本地系統(tǒng),,CALIS數(shù)字圖書館門戶,計費(fèi)中心,認(rèn)證中心,資源
2、調(diào)度中心,CALIS-OID解析中心,紙本掃描加工,,,,,,,CALIS中心,學(xué)位論文提交與發(fā)布系統(tǒng),DRM閱讀器,讀者,DRM數(shù)字版權(quán)保護(hù),瀏覽器,,,CALIS高校學(xué)位論文數(shù)據(jù)庫分中心,,CALIS 學(xué)位論文參建館本地系統(tǒng)涉及到三個層面:,本館層面滿足提交、審核、編目、標(biāo)準(zhǔn)化、回溯、發(fā)布、檢索、管理、存儲等需求符合相關(guān)標(biāo)準(zhǔn)、規(guī)范開放架構(gòu)CALIS子項目(分中心)層面納入“CALIS高校學(xué)位論文數(shù)據(jù)
3、庫”服務(wù)體系CALIS中心層面納入“CALIS高等教育數(shù)字圖書館”服務(wù)體系,,學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖,,,,,,論文元數(shù)據(jù)庫,論文(PDF)對象庫,服務(wù)接口層,應(yīng)用層,存儲層,學(xué)位論文提交與發(fā)布系統(tǒng),安全通信層,,,,DRM版權(quán)保護(hù)系統(tǒng)(PDF),紙本掃描加工系統(tǒng),,,,,MQ服務(wù)器,METS接口模塊,OAI-DP服務(wù)器,認(rèn)證接口,計費(fèi)接口,CLRC OpenURL接口,,學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖,
4、1,2,3,4,5,6,7,8,讀者瀏覽器,DRM閱讀器,,,,,,,Web審核,Web提交,,參建館本地系統(tǒng)與CALIS子項目中心的互操作關(guān)系,,,服務(wù)接口層,安全通信層,,,MQ服務(wù)器,METS接口模塊,OAI收割服務(wù)器,,中心論文元數(shù)據(jù)倉庫,論文(前16頁)對象倉庫,倉儲層,,,,,,,服務(wù)接口層,應(yīng)用層,存儲層,學(xué)位論文提交與發(fā)布系統(tǒng),安全通信層,,,,DRM數(shù)字版權(quán)保護(hù)系統(tǒng),,,,MQ服務(wù)器,M
5、ETS接口模塊,OAI-DP服務(wù)器,認(rèn)證接口,計費(fèi)接口,CLRC OpenURL接口,,,,1,2,3,4,5,6,7,8,參建館,CALIS學(xué)位論文分中心,,,,,,,,學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系,,CALIS中心,CALIS-OID解析中心,,,認(rèn)證中心,,,計費(fèi)中心,,,資源調(diào)度中心,,,,,CALIS數(shù)字圖書館服務(wù)門戶,,,,,,,,服務(wù)接口層,應(yīng)用層,存儲層,學(xué)位論文提交與發(fā)
6、布系統(tǒng),安全通信層,,,,DRM數(shù)字版權(quán)保護(hù)系統(tǒng),,,,MQ服務(wù)器,METS接口模塊,OAI-DP服務(wù)器,認(rèn)證接口,計費(fèi)接口,CLRC OpenURL接口,,,,1,2,3,4,5,6,7,8,參建館,,,,,,,,本地系統(tǒng)升級的主要接口,OAI和METS數(shù)據(jù)收割接口,實現(xiàn)元數(shù)據(jù)和對象數(shù)據(jù)的收集;CALIS_OID解析接口,實現(xiàn)數(shù)字對象的解析和獲取;數(shù)字對象安全下載接口,實現(xiàn)數(shù)字對象的安全下載;CALIS OD
7、L接口,實現(xiàn)CADLIS各系統(tǒng)之間的統(tǒng)一檢索;CADLIS認(rèn)證/計費(fèi)接口,實現(xiàn)認(rèn)證計費(fèi)。,本地系統(tǒng)升級的主要接口,主要內(nèi)容:,“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實施步驟,NOW,基于OAI和METS數(shù)據(jù)收割模式,模式一: OAI-DP / METS-DP+MQ聯(lián)動模式二: 僅采用OAI-DP,模式一:OAI-DP / METS
8、-DP+MQ聯(lián)動 ---收割方式(1),實時自動收割 元數(shù)據(jù)通過OAI-DP發(fā)布。OAI-DP所發(fā)布出來的OAI Record采用“CALIS OAI Record V1.0” 數(shù)據(jù)格式;本地系統(tǒng)的數(shù)字對象通過METS-DP+MQ發(fā)布。METS-DP負(fù)責(zé)將數(shù)字對象封裝成METS數(shù)據(jù)包,然后通過MQ服務(wù)器發(fā)布出去,數(shù)據(jù)格式記為“CALIS METS Record V1.0” ;
9、元數(shù)據(jù)和數(shù)字對象之間的關(guān)系通過OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID進(jìn)行關(guān)聯(lián);學(xué)位論文中心系統(tǒng)接收到 OAI-DP或METS-DP+MQ請求,自動收割參建館本地系統(tǒng)中的數(shù)據(jù);,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---收割方式(2),手動收割 用OAI數(shù)據(jù)導(dǎo)出工具將OAI-DP中的元數(shù)據(jù)導(dǎo)出成為包含OAI Recor
10、d數(shù)據(jù)的XML文件,該文件稱為OAI記錄文件,數(shù)據(jù)格式為“CALIS OAI Record V1.0” ;用METS數(shù)據(jù)導(dǎo)出工具將METS-DP中的數(shù)字對象數(shù)據(jù)導(dǎo)出成為包含METS Record數(shù)據(jù)的XML文件,該文件稱為METS記錄文件,數(shù)據(jù)格式記為“CALIS METS Record V1.0” ; 本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學(xué)位論文中心,由其完成數(shù)據(jù)匯總、統(tǒng)計工作;,模式一:OAI-DP / M
11、ETS-DP+MQ聯(lián)動 ---數(shù)據(jù)格式(元數(shù)據(jù)),,CALIS RECORD V1.0,,用于維護(hù)元數(shù)據(jù)與METS一致的四項信息,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---數(shù)據(jù)格式(對象數(shù)據(jù)),,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---實際收割測試,2006.03月--
12、-2006.07月學(xué)位論文和特色庫項目驗收前,采用模式一方式收割學(xué)位論文本地系統(tǒng)在部分參建館完成升級、數(shù)據(jù)遷移和發(fā)布工作;在廠商和參建館配合下,CALIS技術(shù)中心和學(xué)位論文子項目組共同進(jìn)行數(shù)據(jù)收割;參加測試的學(xué)校:TPI:中國人民大學(xué),中國農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---實際收割測
13、試,收割結(jié)果實時自動收割:本地系統(tǒng)和數(shù)據(jù)都存在問題中心系統(tǒng)對本地系統(tǒng)的自動收割難以有效進(jìn)行手工收割:本地系統(tǒng)能順利提交數(shù)據(jù)但所上傳的數(shù)據(jù)仍存在問題本地系統(tǒng)存在的主要問題系統(tǒng)bugs數(shù)據(jù)問題,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---實際收割測試(系統(tǒng)bugs),OAI-DP本身的bugs比較容易發(fā)現(xiàn)。但本地管理員仍缺乏有效易用的工具;METS-DP本身的bug問題以及M
14、Q配置問題難以由本地管理員自行發(fā)現(xiàn);OAI-DP+METS-DP+MQ聯(lián)動問題廠商技術(shù)人員和本地管理員都難以測試和發(fā)現(xiàn);其他問題著錄和導(dǎo)入工具不完備;本地DP所在機(jī)器軟硬件系統(tǒng)的不穩(wěn)定;DP本身的穩(wěn)定性和可靠性問題 ;METS包傳輸丟包問題;,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---實際收割測試(數(shù)據(jù)問題),數(shù)據(jù)不符合schema導(dǎo)出的OAI和METS包文件,其數(shù)據(jù)不符合s
15、chema數(shù)據(jù)必備性問題很多數(shù)據(jù)項缺乏,不符合子項目組的數(shù)據(jù)規(guī)范性要求CALIS元數(shù)據(jù)schema本身不支持必備性機(jī)制,而廠商本地系統(tǒng)也未能提供相應(yīng)的必備性檢測功能數(shù)據(jù)內(nèi)容不一致問題(尤其是OAI記錄和METS記錄之間的不一致)OAI記錄中的about內(nèi)容不合邏輯如:有時間戳或類型而沒有calis-oid;有calis-oid而沒有時間戳。 元數(shù)據(jù)時間戳應(yīng)該不小于數(shù)字對象時間戳;更新數(shù)字對象時應(yīng)同時更新元數(shù)據(jù)時間戳,才能保
16、證聯(lián)動收割時對這條記錄重收。METS包中的時間戳應(yīng)與OAI-about中的時間戳一致等。數(shù)據(jù)的語義問題張冠李戴,模式一:OAI-DP / METS-DP+MQ聯(lián)動 ---實際收割測試(問題原因),本地系統(tǒng)的著錄工具問題單條入庫的元數(shù)據(jù)和數(shù)字對象在必備性、一致性等方面存在問題。本地系統(tǒng)的批量導(dǎo)入工具問題批量入庫的元數(shù)據(jù)和數(shù)字對象在必備性、一致性等方面存在問題;批量導(dǎo)入的數(shù)據(jù)的時間戳都為同一個時間點,這給OAI
17、-DP帶來很大壓力。統(tǒng)計結(jié)果的一致性問題本地OAI-DP、METS-DP實際發(fā)布的記錄數(shù)與本地系統(tǒng)的數(shù)據(jù)庫查詢模塊提供的記錄數(shù)不一致,給管理員造成困惑。——由內(nèi)部檢索機(jī)制不一致因素所造成。 本地系統(tǒng)缺乏有效的“數(shù)據(jù)質(zhì)量檢測工具/模塊”在OAI-DP和METS-DP發(fā)布之前,系統(tǒng)本身對數(shù)據(jù)沒有進(jìn)行這種質(zhì)量檢測(包括必備性、一致性等)。管理員無法自行發(fā)現(xiàn)上面的“數(shù)據(jù)問題”。,模式二:僅采用OAI-DP收割,為解決模式一收割中的系
18、統(tǒng)和數(shù)據(jù)問題,CALIS管理中心于2006年10月招集廠商開會,提出模式二;廠商依據(jù)規(guī)范要求,改進(jìn)和完善系統(tǒng);模式二: 收割方式實時自動收割手動收割,,模式二:僅采用OAI-DP收割 ---收割方式(1),實時自動收割 元數(shù)據(jù)和數(shù)字對象僅通過OAI-DP發(fā)布。發(fā)布出來的OAI Record采用“CALIS OAI Re
19、cord V2.0” 數(shù)據(jù)格式;學(xué)位論文中心系統(tǒng)接收到 OAI-DP或METS-DP+MQ請求,自動收割參建館本地系統(tǒng)中的數(shù)據(jù);,,手動收割 用新的OAI數(shù)據(jù)導(dǎo)出工具將本地系統(tǒng)中的元數(shù)據(jù)和數(shù)字對象合并為一條OAI記錄導(dǎo)出為OAI記錄文件。該文件中的數(shù)據(jù)格式為“CALIS OAI Record V2.0” ; METS-DP中的數(shù)字對象數(shù)據(jù)無需再單獨(dú)導(dǎo)出; 本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學(xué)位論文中
20、心,由其完成數(shù)據(jù)匯總、統(tǒng)計工作;,模式二:僅采用OAI-DP收割 ---收割方式(2),模式二:僅采用OAI-DP收割 ---數(shù)據(jù)格式,,CALIS Record V1,CALIS Record V2,模式二:僅采用OAI-DP收割
21、 ---數(shù)據(jù)格式,,,CALIS Record V2,無Mets,模式二:僅采用OAI-DP收割 ---實際收割測試,2007.09月參加測試的學(xué)校:TPI:中國農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院,比較: 模式一與模式二 ----在系統(tǒng)部署和維護(hù)方面,比較: 模式一與模式二
22、----優(yōu)缺點比較,,比較: 模式一與模式二 ----結(jié)論,“模式二”是對”模式一”的簡化,相應(yīng)的系統(tǒng)改造、升級、部署、維護(hù)等。 工作量和難度都得大為減少, 模式二 的易用性和可管理性都大為提高;其中“模式二”的手動收割,更為安全穩(wěn)定,CALIS特色庫的大批量數(shù)據(jù)收割均采用該方式;學(xué)位論文本地系統(tǒng)的收割模塊: TPI: 支持模式二的實時自動收割、手動收割; 北大方
23、正:支持模式二的實時自動收割、手動收割; 麥達(dá):支持模式二的實時自動收割、手動收割; TRS:支持模式二的手動收割;,主要內(nèi)容:,“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實施步驟,NOW,基于OAI和METS數(shù)據(jù)收割實施步驟 ---針對模式二(手動收割),1)現(xiàn)有系統(tǒng)升級----公司介紹2)數(shù)據(jù)導(dǎo)出----公司介紹3) 數(shù)據(jù)質(zhì)量檢測4)通過FT
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐵路科技數(shù)據(jù)庫介紹-北京交通大學(xué)圖書館
- powerpointtemplate-北京交通大學(xué)圖書館
- calis規(guī)范 - 北京交通大學(xué)圖書館
- 國泰安csmar數(shù)據(jù)庫應(yīng)用-北京交通大學(xué)圖書館
- 項目名稱北京交通大學(xué)圖書館服務(wù)外包
- ex libris 解決方案與 - 北京交通大學(xué)圖書館
- 館藏發(fā)展的有關(guān)問題與對策-北京交通大學(xué)圖書館
- 武漢大學(xué)與北京交通大學(xué)圖書館電子資源門戶系統(tǒng)比較
- 鐘建法—館藏復(fù)選原理、方法與操作-北京交通大學(xué)圖書館
- 如何在elsevier期刊上發(fā)表文章-北京交通大學(xué)圖書館
- 索書號-上海交通大學(xué)圖書館
- powerpointtemplate-西安交通大學(xué)圖書館
- emis使用演示-上海交通大學(xué)圖書館
- 報告編號 - 西南交通大學(xué)圖書館
- 數(shù)字圖書館元數(shù)據(jù)登記系統(tǒng).pdf
- 文獻(xiàn)分類標(biāo)引規(guī)則-西安交通大學(xué)圖書館
- 數(shù)據(jù)庫檢索指南——ebsco數(shù)據(jù)庫-武漢大學(xué)圖書館
- 陜西省高校圖工委 - 西安交通大學(xué)圖書館
- 項目名稱-北京師范大學(xué)圖書館北京師范大學(xué)圖書館
- 一、下載科技查新委托單-上海交通大學(xué)圖書館
評論
0/150
提交評論