版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、上海交通大學(xué)碩士學(xué) 位論文摘 要自 二十世紀(jì)九十年代起, We b逐漸成為一個(gè)存儲(chǔ)人類(lèi)知識(shí)的倉(cāng)庫(kù)。借助于W e b ,人們用前所未有的方式共享思想和信息。 但如何從 W e b中搜尋有價(jià)值的信息對(duì)于 大多數(shù)人來(lái)說(shuō), 仍是一件麻煩而困 難的事情。以 搜索引擎為代表的面向 W e b數(shù)據(jù)的信息檢索服務(wù)的出 現(xiàn)從一定程度上緩解了 此矛盾, 但 W e b 數(shù)據(jù)的 海量性使得信息檢索的查準(zhǔn)率成為人們對(duì)信息檢索質(zhì)量的一個(gè)主要衡量指標(biāo)。另一方面,集
2、中式體系結(jié)構(gòu)的信息檢索系統(tǒng)己經(jīng)不能滿(mǎn)足需求,研究重點(diǎn)越來(lái)越多的 放到如何整合己 有的異構(gòu)的 信息資源。為保證異構(gòu)的信息資源服務(wù)之間能夠共享和協(xié)同 工作,必須提供標(biāo)準(zhǔn)的公 共訪(fǎng)問(wèn) 查詢(xún)協(xié)議。本文分析了 W e b上信息檢索的困難,指出了 遵循標(biāo)準(zhǔn)協(xié)議構(gòu)造分布式的 信息檢索服務(wù)是大勢(shì)所趨,并 研究了 相關(guān)的關(guān)鍵協(xié)議和技術(shù)。{ 在 元 數(shù) 據(jù) 描 述 方 案 研 究 方 面 , 本 文 研 究 了D u b l i n C o r 。 核
3、心 元 素 方 案 、 解決元數(shù)據(jù)互操作性的資源描述框架 ( R D F ) ,以 及如何在現(xiàn)有的 W e b頁(yè)面上 應(yīng)用元數(shù)據(jù)方案的問(wèn) 題。最后,針對(duì)元數(shù)據(jù) 目 前應(yīng)用的內(nèi)在缺陷,論文提出了一種利用W e b自 身超文本特性的 元數(shù)據(jù)傳遞機(jī)制。在公共檢索協(xié)議方面,我們嘗試將圖書(shū)館界長(zhǎng)期研究的信息檢索國(guó)際標(biāo)準(zhǔn)Z 3 9 . 5 0 協(xié)議應(yīng)用到W e b 環(huán)境的 信息服務(wù), 并在實(shí)現(xiàn)過(guò)程中 初步研究了 一些關(guān)鍵的 新技術(shù) ( 如底層編碼
4、、 協(xié)議狀態(tài)和消息映射問(wèn) 題) , 這些都是國(guó)內(nèi)尚 未探討過(guò)的。 研究的 著重點(diǎn) 在于如何在H T T P 上構(gòu)造Z 3 9 . 5 0 應(yīng)用,如何利用Z 3 9 . 5 0 構(gòu)造分布式結(jié)構(gòu)的 信息檢索服務(wù)。 本文提出了 基于 Z 3 9 . 5 0 協(xié)議的分布式信息檢索服務(wù)的體系結(jié)構(gòu),并討論了實(shí)現(xiàn)過(guò)程中的關(guān)鍵技術(shù)。關(guān) 鍵 詞 : 信 息 搜 索 , 搜 索 引 擎 , 元 數(shù) 據(jù) , Z 3 9 . 5 0 一 。 議上海交通大
5、學(xué) 碩士 學(xué) 位論文第一章 緒論信息 檢索 ( I n f o r m a t i o n R e t r i e v a l : I R ) 是一門(mén)古 老的 學(xué)科,主 要研究如何表示、存儲(chǔ)、 組織和 獲取信息 ( t h e r e p r e s e n t a t i o n , s t o r a g e , o r g a n i z a t i o n o f , a n d a c c e s s t oi
6、 n f o r m a t i o n i t e m s ) 。 然而, 在 工 n t e r n e t 出 現(xiàn)之前, 它是一門(mén)比 較 狹窄的學(xué) 科,隸 屬于圖書(shū)情報(bào)學(xué) 領(lǐng)域。 事實(shí)上, 在我國(guó),I n f o r m a t i o n R e t r i e v a l傳統(tǒng)上 被譯作 “ 情報(bào)檢索” 或者 “ 文獻(xiàn)檢索” [ 1 ] .從本世紀(jì)九 十 年代中 期 起, I n t e r n e t , 尤其是Wo r
7、 l d Wi d e W e b 的出 現(xiàn)給人類(lèi)獲得 信息、發(fā)布信息的 模式帶來(lái)了 革命性的變化, 并進(jìn)而為信息檢索學(xué)科提供了前所未有的機(jī)遇,也提出了前所未有的 挑戰(zhàn)。如今,以W e b為主的 I n t e r n e t 己 經(jīng)成為 名副 其實(shí)的人 類(lèi)知識(shí) 文化大 倉(cāng)庫(kù)。 人們 用史 無(wú)前 例的 方式, 最大限 度地共享知 識(shí)和信息:人們無(wú)需了 解各種技術(shù)的 細(xì) 節(jié), 比如 硬件平臺(tái) 、 軟件系統(tǒng)、 通信協(xié)議 等等;人們 用標(biāo)
8、準(zhǔn)的 瀏覽 器 用戶(hù)界面 來(lái)訪(fǎng)問(wèn)W e b 上的 信息;人 們可以 幾 乎不受任 何限 制地 創(chuàng)建自己 的 W e b站點(diǎn) 或者網(wǎng)頁(yè), 發(fā)布自 己 的 信息 供全世界的 人訪(fǎng)問(wèn) 、 共享???之, W e b成為一 個(gè)獨(dú)立的信息發(fā)布、訪(fǎng)問(wèn) 渠道, 也構(gòu)成了一 個(gè)獨(dú)立的 信息訪(fǎng)問(wèn) 的 虛擬空間 ( C y b e r S p a c e ) .如何在這 樣一 個(gè)虛擬的 信息空間內(nèi) 尋找 所需的 特定信息, 成為近年 來(lái)的一個(gè) 研究熱 點(diǎn)
9、。隨 之而來(lái), W e b 時(shí)代的信息 搜索學(xué) 科從傳統(tǒng)的圖 書(shū)情報(bào) 學(xué)擴(kuò)展為一項(xiàng) 綜合性的 研究 性課 題,它 涉及情報(bào)學(xué)、 計(jì)算 機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、 認(rèn)知學(xué)、 人工智能 等多 學(xué)科領(lǐng)域,主 要研究 信息,尤其是數(shù)字 化、網(wǎng) 絡(luò) 化形式的 信息 如何更有效的 表達(dá)、 存 儲(chǔ)、 組織、 訪(fǎng)問(wèn) 和檢索等。1 . 1 . 信息 檢索效率 評(píng)價(jià)指標(biāo)本節(jié)主要 從傳統(tǒng)信息 檢索理論 討論 信息 檢索效率。衡量 信息 檢索 效率的 基本指 標(biāo)是:查全
10、率 ( r e c a l l ) — 下文以R 表示;查 準(zhǔn) 率( p e r t m e n c y 或r e l e v a n c e ) — 下 文以P 表 示 ;漏檢率 ( o m i s s i o n ) — 下文以O(shè)表示;誤檢率 ( n o i s e ) — 下文以N表示。任一 檢索 課題 和某一 特定 檢索系 統(tǒng)存 貯的文 獻(xiàn)可以 從 “ 有關(guān)” 、 “ 無(wú) 關(guān)” 和 “ 查出 ” 、 “ 未查出” 4 種情 況劃
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- z39.50客戶(hù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- z39.50協(xié)議的研究與ciient端檢索系統(tǒng)的實(shí)現(xiàn)
- z39.50協(xié)議應(yīng)用研究及httpz39.50網(wǎng)關(guān)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 數(shù)字圖書(shū)館z39.50數(shù)據(jù)資源整合系統(tǒng)的研究與實(shí)現(xiàn)
- 運(yùn)用xml技術(shù)對(duì)圖書(shū)館ilas系統(tǒng)中z39.50協(xié)議的改進(jìn)
- 基于z39.50的因特網(wǎng)用戶(hù)端信息檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
- 基于z39.50的分布式檢索技術(shù)在數(shù)字圖書(shū)館系統(tǒng)的應(yīng)用研究
- Web資源質(zhì)量元數(shù)據(jù)的獲取與管理技術(shù)的研究與實(shí)現(xiàn).pdf
- 面向服務(wù)的空間元數(shù)據(jù)Web查詢(xún)技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于XML的海洋信息元數(shù)據(jù)標(biāo)準(zhǔn)的研究與實(shí)現(xiàn).pdf
- WEB日志數(shù)據(jù)挖掘的研究和實(shí)現(xiàn).pdf
- 元數(shù)據(jù)標(biāo)準(zhǔn)注冊(cè)系統(tǒng)研究與原型實(shí)現(xiàn).pdf
- 基于WEB元數(shù)據(jù)抽取的ETL資源整合模型研究與實(shí)現(xiàn).pdf
- 基于本體和Web Services的數(shù)據(jù)交換的研究與實(shí)現(xiàn).pdf
- 映像和元對(duì)象協(xié)議實(shí)現(xiàn)AOP的研究.pdf
- WEB站點(diǎn)日志數(shù)據(jù)挖掘的研究與實(shí)現(xiàn).pdf
- 元數(shù)據(jù)驅(qū)動(dòng)的Web服務(wù)質(zhì)量保障框架設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web Services和元數(shù)據(jù)的信息集成技術(shù)研究.pdf
- Web Services-CORBA協(xié)議轉(zhuǎn)換的研究與實(shí)現(xiàn).pdf
- 基于工作流和元數(shù)據(jù)的ETL工具研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論