Deep Web數(shù)據(jù)源發(fā)現(xiàn)與采樣研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁數(shù)：64 大?。?.16MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

Deep Web數(shù)據(jù)源發(fā)現(xiàn)與采樣研究.pdf_第1頁

已閱讀1頁，還剩63頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著技術(shù)的進(jìn)步,知識(shí)的積累,越來越多的豐富資源不斷地被加入到網(wǎng)絡(luò)中,使得通過網(wǎng)絡(luò)就可訪問的數(shù)據(jù)量呈現(xiàn)巨大的增長。尤其是在近一二十年的時(shí)間內(nèi),隨著各種商業(yè)應(yīng)用的廣泛推廣,各種各樣的大型數(shù)據(jù)庫建立起來。銀行、商店、學(xué)校、學(xué)術(shù)機(jī)構(gòu)、政府、媒體、圖書等等,通過互聯(lián)網(wǎng),人們能查到幾乎所有領(lǐng)域的信息。
　　由于信息的復(fù)雜多樣,使得整個(gè)Web看似雜亂無章,但如果按這些信息可被訪問的途徑,可以將其劃分為Surface Web(淺層網(wǎng)絡(luò))和De

2、ep Web(深層網(wǎng)絡(luò))兩個(gè)部分。一般來說,Surface Web是指那些有固定的超鏈接地址,能被傳統(tǒng)搜索引擎索引或者通過其他頁面訪問到的靜態(tài)網(wǎng)頁的集合。而Deep Web是指網(wǎng)絡(luò)中不能被傳統(tǒng)搜索引擎索引到的那部分內(nèi)容,尤其是指那些實(shí)時(shí)產(chǎn)生的動(dòng)態(tài)頁面,如利用JavaScript等腳本語言動(dòng)態(tài)產(chǎn)生內(nèi)容的頁面。
　　據(jù)研究,Deep Web中蘊(yùn)藏著海量高質(zhì)量數(shù)據(jù),為了能夠充分利用這些寶貴的數(shù)據(jù)資源,以對(duì)其進(jìn)行深入的分析和挖掘,必須

3、獲取這些高質(zhì)量的數(shù)據(jù)。對(duì)Deep Web的數(shù)據(jù)獲取過程也是數(shù)據(jù)集成過程的第一步,其他兩個(gè)步驟分別為數(shù)據(jù)抽取和數(shù)據(jù)整合。數(shù)據(jù)獲取的主要任務(wù)就是限定某一特定領(lǐng)域,發(fā)現(xiàn)盡可能多的數(shù)據(jù)源,在對(duì)所獲取的數(shù)據(jù)源進(jìn)行科學(xué)評(píng)估后,選擇優(yōu)質(zhì)的數(shù)據(jù)源,然后,最大限度地獲取這些優(yōu)質(zhì)數(shù)據(jù)源中的數(shù)據(jù)。
　　本文主要針對(duì)基于搜索引擎的Deep Web數(shù)據(jù)源發(fā)現(xiàn)與選擇中的三個(gè)問題展開研究:
　　 1.在發(fā)現(xiàn)Deep Web數(shù)據(jù)庫查詢接口頁面時(shí),如何

4、構(gòu)建高相關(guān)性的關(guān)鍵詞集合并向搜索引擎提交有效的查詢,使得含有Web數(shù)據(jù)庫的頁面盡可能多地出現(xiàn)在查詢結(jié)果中,并使其排名盡量靠前。
　　 2.發(fā)現(xiàn)Deep Web查詢接口頁面后,通過觀察可以發(fā)現(xiàn),頁面中一般有多個(gè)查詢接口,傳統(tǒng)的搜索引擎接口、元搜索接口和Web數(shù)據(jù)庫的查詢接口都在同一個(gè)頁面上。根據(jù)對(duì)汽車網(wǎng)站的觀察,有的頁面上甚至有七八個(gè)不同功能的查詢接口。如何從眾多接口中識(shí)別出需要的Web數(shù)據(jù)庫查詢接口,進(jìn)而抽取出查詢接口,需要更加

5、有效的方法。
　　 3.由于Deep Web數(shù)據(jù)源數(shù)量多、內(nèi)容廠泛、數(shù)據(jù)量巨大,所以,如果在本地建立完整的可用數(shù)據(jù)庫將是一項(xiàng)耗費(fèi)巨大人力、物力、財(cái)力的工程,并且,Deep Web數(shù)據(jù)源數(shù)據(jù)更新速度快,建立本地?cái)?shù)據(jù)庫后需要不定期地進(jìn)行更新操作。由于我們是通過查詢接口來獲取數(shù)據(jù)的,所以,更新操作并不能自定義時(shí)間段來獲取想要的特定數(shù)據(jù),因而,更新操作也會(huì)帶來很多問題。鑒于此,提出在本地建立一個(gè)Deep Web數(shù)據(jù)源的樣本庫,定期從De

6、ep Web數(shù)據(jù)源中獲取一定量的樣本來描述這個(gè)數(shù)據(jù)源的數(shù)據(jù)。在取樣時(shí),如何選取最具有代表性的關(guān)鍵字作為查詢?cè)~來獲取數(shù)量大、分布均勻的數(shù)據(jù)是一個(gè)亟待解決的問題。
　　針對(duì)研究中發(fā)現(xiàn)的以上問題,本文對(duì)基于搜索引擎的Deep Web數(shù)據(jù)源的發(fā)現(xiàn)和選擇的問題展開研究,提出了基于源代碼的頁面分塊算法,提出了一種構(gòu)建高相關(guān)性關(guān)鍵詞集合的方法,并充分利用這些關(guān)鍵詞來對(duì)數(shù)據(jù)進(jìn)行采樣,并對(duì)采樣效果進(jìn)行分析,計(jì)算出其偏差。主要工作和成果概括如下:

7、
　　 1.提出了一種構(gòu)建高相關(guān)性關(guān)鍵詞集合的方法,充分利用知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)的概念,從本地?cái)?shù)據(jù)庫中提取出領(lǐng)域內(nèi)的文獻(xiàn)資料,在對(duì)信息進(jìn)行處理后,得到一個(gè)基于圖的關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò),其中,各個(gè)關(guān)鍵詞具有相應(yīng)的權(quán)重。
　　 2.提出一種面向領(lǐng)域的Deep Web查詢接口自動(dòng)發(fā)現(xiàn)方法。通過對(duì)網(wǎng)頁源代碼、頁面視覺信息進(jìn)行綜合利用,來確定一個(gè)頁面中的Deep Web查詢接口。使用頁面塊分割算法來將頁面分成幾個(gè)不重疊的區(qū)域,然后對(duì)代碼進(jìn)行分析

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Deep Web數(shù)據(jù)源發(fā)現(xiàn)與采樣研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

Deep Web數(shù)據(jù)源發(fā)現(xiàn)與采樣研究.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載