基于MapReduce的全文檢索系統(tǒng)設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、在上世紀90年代,以因特網(wǎng)為代表的計算機網(wǎng)絡還是少量研究人員使用的高深技術,但是很快就和計算機硬件一起以極其驚人的速度進入到普通民眾的生活中。同時,計算機上產(chǎn)生的數(shù)據(jù)越來越多。如何在大量信息中找到有用信息成為研究者們關注的焦點。這過程中一批通用搜索引擎誕生,例如Google、Yahoo、百度等。搜索引擎的發(fā)展越來越呈現(xiàn)出被少數(shù)幾個公司掌控的局面,而通用搜索引擎在機構內(nèi)部常常無法滿足用戶的搜索需求。
  本文采用開源的Apache分

2、布式框架Hadoop與全文檢索引擎框架Lucene來完成在相對規(guī)模較大、產(chǎn)生文件量較多的局域網(wǎng)范圍內(nèi)實現(xiàn)分布式搜索引擎。設計方案主要分為三個部分:第一部分針對用戶提交的源文件建立索引,存儲到HDFS中,提出了分類策略,針對不同文件格式分別建立索引,獨立存儲索引文件,解決了以往單機環(huán)境下索引數(shù)據(jù)量過大而成為服務器處理瓶頸的問題,同時還保存了源文件的分類特征;第二部分根據(jù)用戶提交的檢索關鍵詞,在第一部分建立的分類索引文件中檢索出結果后返回給

3、用戶,本文提出采用基于遠程過程調(diào)用進行數(shù)據(jù)統(tǒng)計的方式解決了分布式環(huán)境下衡量檢索關鍵詞與檢索結果相關性計算中部分計算因子在獲取上存在障礙的問題;第三部分利用用戶檢索的歷史結果,提供用戶在歷史檢索結果中快速檢索。
  本文針對響應速度的要求,借鑒操作系統(tǒng)中緩存的思想,充分利用用戶的歷史檢索記錄挖掘用戶檢索行為規(guī)律,提出基于歷史檢索記錄的快速檢索方案,該方案針對被常檢索到的文件,建立單獨的索引進行存儲,在用戶選擇快速檢索時將優(yōu)先在該基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論