版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 Scale-up x Scale-out: A Case Study using Nutch/LuceneMaged Michael, José E. Moreira, Doron Shiloach, Robert W. WisniewskiIBM Thomas J. Watson Research CenterYorktown Heights, NY 10598-0218向上向外擴展:關于研究 向上向外擴展:關于研究Nut
2、ch/Lucene的互操作性 的互操作性摘要 摘要在過去幾年中,多處理系統(tǒng)提高運行能力的解決方案一直困擾著主流的商業(yè)計算。主要的服務器供應商繼續(xù)提供越來越強悍的機器,而近期,向外擴展的解決方案,規(guī)模較小的機器集群的形式,更加被商業(yè)計算所接受。向外擴展的解決方案是以網絡為中心高吞吐量的特別有效的應用。在本文中,我們調查了向上擴展和向外擴展這兩種相對的方法在一個新興的搜索應用程序中并行的情況。我們的結論表明,向外擴展的策略即使在向上擴展的機
3、器中依然可以表現良好。此外,向外擴展的解決方案提供更好的價格/性能比,雖然增加了管理的復雜性。1 簡介 簡介在過去10年里的商業(yè)計算中,我們目睹了計算機系統(tǒng)單處理器到多處理器的全面換代。80年代初期引發(fā)的計算機行業(yè)的科技革命導致它占領了90年代商業(yè)計算大部分的市場。我們可以根據不同的做法,將采用多處理器系統(tǒng)的運算(包括商業(yè)和技術/科學)分為兩個大組:·向上擴展:大型共享存儲服務器的部署應用(多處理系統(tǒng)) 。·向外擴展
4、:多個小相互服務器應用程序的部署(網絡集群)。在第一階段的商業(yè)計算革命中,向上擴展的優(yōu)勢是顯而易見的。多處理系統(tǒng)規(guī)模的增加,處理器時鐘速率的提高,提供更高的計算能力來處理事物的需要,即使是目前最大的公司也面臨這些問題. 對稱多處理系統(tǒng)是目前的主流商業(yè)計算。IBM 、惠普和Sun這樣的公司每一代人都投入巨資以建設更大、更好多處理系統(tǒng)。最近,針對于商業(yè)計算的向外擴展越來越被關注。對于許多新的以網絡產品為主的企業(yè)(例如谷歌、雅虎、eBay、亞
5、馬遜),使用向外擴展是是解決必要計算能力唯一的辦法。另外,計算機制造商更容易部署基于機架最佳化和刀片服務器的向外擴展解決方案。向外擴展在過去好多年一直是大規(guī)??茖W計算的唯一可行方案,我們可以觀察世界500強系統(tǒng)的發(fā)展。群服務器相似的能力: 4處理器的配置, 16-32培養(yǎng)基的最大內存,內置以太網,并擴展卡兩種光纖通道,Infiniband的, Myrinet的,或10Gbit/s以太網。同時還提供有多達8個處理器的雙寬葉片配置和額外的內
6、存。BladeCenter-H是最新的IBM BladeCenter機架。與之前的BladeCenter – 1機架相比,它有14個刀片插槽的刀片服務器。它也有多達兩個管理單元, 4個交換機模塊,四橋模塊和四個高速交換機模塊的空間。(在機架上交換機模塊3與4和橋梁模塊3與4均共享相同的插槽。)我們在每個機架配備兩個1-Gbit/s以太網交換機模塊和2個光纖通道交換機模塊。三種不同葉片中使用了我們的集群:JS21( PowerPC處理器)
7、,HS21 (英特爾Woodcrest處理器)和LS21( AMD Opteron處理器)。每一個刀片(JS21, HS21,或LS21)既有本地磁盤驅動器(73 GB的容量)也有雙光纖通道的網絡適配器。在光纖通道適配器,兩個用于連接的刀片光纖通道交換機,都被插入機架。大約一半的集群(4底盤)組成JS21刀片。這是四處理器(雙插槽,雙核心)的PowerPC 970片,運行在2.5 GHz。每一個刀片有8GiB的內存。在本文中的結論報告中
8、,我們著重關注這些JS21刀片。DS4100存儲子系統(tǒng)包括雙存儲控制器,每一個都配有2Gb/s的光纖通道接口,并且在主要抽屜中容納了14個SATA驅動器。盡管每個DS4100是搭配一個專門的BladeCenter-H機架,但由于我們運行的光纖通道網絡,集群中的任何刀片都可以可以查看到存儲系統(tǒng)的每個邏輯單元。3 Nutch Nutch / Lucene Lucene的工作量 的工作量Nutch / Lucene是一種執(zhí)行搜索應用的框架。這
9、是基于非結構化數據(網頁)搜索的應用程序日益增多的表現。我們已經習慣了谷歌和雅虎這樣開放互聯(lián)網運作的搜索引擎。然而,搜索也是公司局域網、內部網絡的一個重要的運作。Nutch / Lucene完全是基于Java和其代碼的開源性。Nutch / Lucene,作為一個典型的搜尋工作,有三個主要部分組成:(1)檢索,(2)索引,和(3)查詢。在本文中,我們列出查詢結果的組成部分。為了完整性,我們簡要介紹了其他組成部分。抓取操作是瀏覽和檢索信息
10、的網頁,然后輸入將要搜索的文本信息。這一套文件在搜索術語稱為語料庫。爬行可以同時在內部網絡(內聯(lián)網)以及外部網絡(因特網)內執(zhí)行。檢索,尤其是在互聯(lián)網,是一個復雜的工作。無論是有意還是無意,總有許多的網站難以檢索到。檢索的性能通常是被檢索系統(tǒng)和被檢索系統(tǒng)之間的網絡帶寬給制約著。在Nutch / Lucene的搜索框架包含一個使用MapReduce編程模型的并行索引操作書面。MapReduce提供了一個方便的方式處理一個重要的(盡管有限)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機專業(yè)外文翻譯----向上向外擴展關于研究nutchlucene的互操作性
- 計算機專業(yè)外文翻譯----向上向外擴展關于研究nutchlucene的互操作性
- 計算機專業(yè)外文翻譯----向上向外擴展:關于研究NutchLucene的互操作性.doc
- 計算機專業(yè)外文翻譯----向上向外擴展:關于研究NutchLucene的互操作性.doc
- 計算機專業(yè)外文翻譯--計算機
- 計算機專業(yè)-外文翻譯
- 計算機專業(yè)外文翻譯(文獻翻譯)
- 計算機相關專業(yè)外文翻譯
- 計算機專業(yè)外文翻譯 9
- 計算機專業(yè)aspnet外文翻譯
- 計算機專業(yè)外文翻譯----計算機視覺中的學習
- 基于ESB的云計算互操作性研究.pdf
- 計算機專業(yè)畢業(yè)外文翻譯
- 計算機專業(yè) java外文翻譯
- 計算機專業(yè)外文翻譯(文獻翻譯)
- 計算機專業(yè)外文資料翻譯
- 計算機專業(yè)外文翻譯--asp外文翻譯+原文
- 計算機專業(yè)asp開發(fā)外文翻譯
- 計算機專業(yè)外文翻譯---asp的發(fā)展
- 計算機c語言專業(yè)外文翻譯
評論
0/150
提交評論