2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 Scale-up x Scale-out: A Case Study using Nutch/LuceneMaged Michael, José E. Moreira, Doron Shiloach, Robert W. WisniewskiIBM Thomas J. Watson Research CenterYorktown Heights, NY 10598-0218向上向外擴展:關(guān)于研究 向上向外擴展:關(guān)于研究Nut

2、ch/Lucene的互操作性 的互操作性摘要 摘要在過去幾年中,多處理系統(tǒng)提高運行能力的解決方案一直困擾著主流的商業(yè)計算。主要的服務(wù)器供應(yīng)商繼續(xù)提供越來越強悍的機器,而近期,向外擴展的解決方案,規(guī)模較小的機器集群的形式,更加被商業(yè)計算所接受。向外擴展的解決方案是以網(wǎng)絡(luò)為中心高吞吐量的特別有效的應(yīng)用。在本文中,我們調(diào)查了向上擴展和向外擴展這兩種相對的方法在一個新興的搜索應(yīng)用程序中并行的情況。我們的結(jié)論表明,向外擴展的策略即使在向上擴展的機

3、器中依然可以表現(xiàn)良好。此外,向外擴展的解決方案提供更好的價格/性能比,雖然增加了管理的復(fù)雜性。1 簡介 簡介在過去10年里的商業(yè)計算中,我們目睹了計算機系統(tǒng)單處理器到多處理器的全面換代。80年代初期引發(fā)的計算機行業(yè)的科技革命導(dǎo)致它占領(lǐng)了90年代商業(yè)計算大部分的市場。我們可以根據(jù)不同的做法,將采用多處理器系統(tǒng)的運算(包括商業(yè)和技術(shù)/科學(xué))分為兩個大組:·向上擴展:大型共享存儲服務(wù)器的部署應(yīng)用(多處理系統(tǒng)) 。·向外擴展

4、:多個小相互服務(wù)器應(yīng)用程序的部署(網(wǎng)絡(luò)集群)。在第一階段的商業(yè)計算革命中,向上擴展的優(yōu)勢是顯而易見的。多處理系統(tǒng)規(guī)模的增加,處理器時鐘速率的提高,提供更高的計算能力來處理事物的需要,即使是目前最大的公司也面臨這些問題. 對稱多處理系統(tǒng)是目前的主流商業(yè)計算。IBM 、惠普和Sun這樣的公司每一代人都投入巨資以建設(shè)更大、更好多處理系統(tǒng)。最近,針對于商業(yè)計算的向外擴展越來越被關(guān)注。對于許多新的以網(wǎng)絡(luò)產(chǎn)品為主的企業(yè)(例如谷歌、雅虎、eBay、亞

5、馬遜),使用向外擴展是是解決必要計算能力唯一的辦法。另外,計算機制造商更容易部署基于機架最佳化和刀片服務(wù)器的向外擴展解決方案。向外擴展在過去好多年一直是大規(guī)模科學(xué)計算的唯一可行方案,我們可以觀察世界500強系統(tǒng)的發(fā)展。群服務(wù)器相似的能力: 4處理器的配置, 16-32培養(yǎng)基的最大內(nèi)存,內(nèi)置以太網(wǎng),并擴展卡兩種光纖通道,Infiniband的, Myrinet的,或10Gbit/s以太網(wǎng)。同時還提供有多達8個處理器的雙寬葉片配置和額外的內(nèi)

6、存。BladeCenter-H是最新的IBM BladeCenter機架。與之前的BladeCenter – 1機架相比,它有14個刀片插槽的刀片服務(wù)器。它也有多達兩個管理單元, 4個交換機模塊,四橋模塊和四個高速交換機模塊的空間。(在機架上交換機模塊3與4和橋梁模塊3與4均共享相同的插槽。)我們在每個機架配備兩個1-Gbit/s以太網(wǎng)交換機模塊和2個光纖通道交換機模塊。三種不同葉片中使用了我們的集群:JS21( PowerPC處理器)

7、,HS21 (英特爾Woodcrest處理器)和LS21( AMD Opteron處理器)。每一個刀片(JS21, HS21,或LS21)既有本地磁盤驅(qū)動器(73 GB的容量)也有雙光纖通道的網(wǎng)絡(luò)適配器。在光纖通道適配器,兩個用于連接的刀片光纖通道交換機,都被插入機架。大約一半的集群(4底盤)組成JS21刀片。這是四處理器(雙插槽,雙核心)的PowerPC 970片,運行在2.5 GHz。每一個刀片有8GiB的內(nèi)存。在本文中的結(jié)論報告中

8、,我們著重關(guān)注這些JS21刀片。DS4100存儲子系統(tǒng)包括雙存儲控制器,每一個都配有2Gb/s的光纖通道接口,并且在主要抽屜中容納了14個SATA驅(qū)動器。盡管每個DS4100是搭配一個專門的BladeCenter-H機架,但由于我們運行的光纖通道網(wǎng)絡(luò),集群中的任何刀片都可以可以查看到存儲系統(tǒng)的每個邏輯單元。3 Nutch Nutch / Lucene Lucene的工作量 的工作量Nutch / Lucene是一種執(zhí)行搜索應(yīng)用的框架。這

9、是基于非結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)頁)搜索的應(yīng)用程序日益增多的表現(xiàn)。我們已經(jīng)習(xí)慣了谷歌和雅虎這樣開放互聯(lián)網(wǎng)運作的搜索引擎。然而,搜索也是公司局域網(wǎng)、內(nèi)部網(wǎng)絡(luò)的一個重要的運作。Nutch / Lucene完全是基于Java和其代碼的開源性。Nutch / Lucene,作為一個典型的搜尋工作,有三個主要部分組成:(1)檢索,(2)索引,和(3)查詢。在本文中,我們列出查詢結(jié)果的組成部分。為了完整性,我們簡要介紹了其他組成部分。抓取操作是瀏覽和檢索信息

10、的網(wǎng)頁,然后輸入將要搜索的文本信息。這一套文件在搜索術(shù)語稱為語料庫。爬行可以同時在內(nèi)部網(wǎng)絡(luò)(內(nèi)聯(lián)網(wǎng))以及外部網(wǎng)絡(luò)(因特網(wǎng))內(nèi)執(zhí)行。檢索,尤其是在互聯(lián)網(wǎng),是一個復(fù)雜的工作。無論是有意還是無意,總有許多的網(wǎng)站難以檢索到。檢索的性能通常是被檢索系統(tǒng)和被檢索系統(tǒng)之間的網(wǎng)絡(luò)帶寬給制約著。在Nutch / Lucene的搜索框架包含一個使用MapReduce編程模型的并行索引操作書面。MapReduce提供了一個方便的方式處理一個重要的(盡管有限)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論