2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著技術的進步,知識的積累,越來越多的豐富資源不斷地被加入到網絡中,使得通過網絡就可訪問的數(shù)據量呈現(xiàn)巨大的增長。尤其是在近一二十年的時間內,隨著各種商業(yè)應用的廣泛推廣,各種各樣的大型數(shù)據庫建立起來。銀行、商店、學校、學術機構、政府、媒體、圖書等等,通過互聯(lián)網,人們能查到幾乎所有領域的信息。
   由于信息的復雜多樣,使得整個Web看似雜亂無章,但如果按這些信息可被訪問的途徑,可以將其劃分為Surface Web(淺層網絡)和De

2、ep Web(深層網絡)兩個部分。一般來說,Surface Web是指那些有固定的超鏈接地址,能被傳統(tǒng)搜索引擎索引或者通過其他頁面訪問到的靜態(tài)網頁的集合。而Deep Web是指網絡中不能被傳統(tǒng)搜索引擎索引到的那部分內容,尤其是指那些實時產生的動態(tài)頁面,如利用JavaScript等腳本語言動態(tài)產生內容的頁面。
   據研究,Deep Web中蘊藏著海量高質量數(shù)據,為了能夠充分利用這些寶貴的數(shù)據資源,以對其進行深入的分析和挖掘,必須

3、獲取這些高質量的數(shù)據。對Deep Web的數(shù)據獲取過程也是數(shù)據集成過程的第一步,其他兩個步驟分別為數(shù)據抽取和數(shù)據整合。數(shù)據獲取的主要任務就是限定某一特定領域,發(fā)現(xiàn)盡可能多的數(shù)據源,在對所獲取的數(shù)據源進行科學評估后,選擇優(yōu)質的數(shù)據源,然后,最大限度地獲取這些優(yōu)質數(shù)據源中的數(shù)據。
   本文主要針對基于搜索引擎的Deep Web數(shù)據源發(fā)現(xiàn)與選擇中的三個問題展開研究:
   1.在發(fā)現(xiàn)Deep Web數(shù)據庫查詢接口頁面時,如何

4、構建高相關性的關鍵詞集合并向搜索引擎提交有效的查詢,使得含有Web數(shù)據庫的頁面盡可能多地出現(xiàn)在查詢結果中,并使其排名盡量靠前。
   2.發(fā)現(xiàn)Deep Web查詢接口頁面后,通過觀察可以發(fā)現(xiàn),頁面中一般有多個查詢接口,傳統(tǒng)的搜索引擎接口、元搜索接口和Web數(shù)據庫的查詢接口都在同一個頁面上。根據對汽車網站的觀察,有的頁面上甚至有七八個不同功能的查詢接口。如何從眾多接口中識別出需要的Web數(shù)據庫查詢接口,進而抽取出查詢接口,需要更加

5、有效的方法。
   3.由于Deep Web數(shù)據源數(shù)量多、內容廠泛、數(shù)據量巨大,所以,如果在本地建立完整的可用數(shù)據庫將是一項耗費巨大人力、物力、財力的工程,并且,Deep Web數(shù)據源數(shù)據更新速度快,建立本地數(shù)據庫后需要不定期地進行更新操作。由于我們是通過查詢接口來獲取數(shù)據的,所以,更新操作并不能自定義時間段來獲取想要的特定數(shù)據,因而,更新操作也會帶來很多問題。鑒于此,提出在本地建立一個Deep Web數(shù)據源的樣本庫,定期從De

6、ep Web數(shù)據源中獲取一定量的樣本來描述這個數(shù)據源的數(shù)據。在取樣時,如何選取最具有代表性的關鍵字作為查詢詞來獲取數(shù)量大、分布均勻的數(shù)據是一個亟待解決的問題。
   針對研究中發(fā)現(xiàn)的以上問題,本文對基于搜索引擎的Deep Web數(shù)據源的發(fā)現(xiàn)和選擇的問題展開研究,提出了基于源代碼的頁面分塊算法,提出了一種構建高相關性關鍵詞集合的方法,并充分利用這些關鍵詞來對數(shù)據進行采樣,并對采樣效果進行分析,計算出其偏差。主要工作和成果概括如下:

7、
   1.提出了一種構建高相關性關鍵詞集合的方法,充分利用知識關聯(lián)網絡的概念,從本地數(shù)據庫中提取出領域內的文獻資料,在對信息進行處理后,得到一個基于圖的關鍵詞關聯(lián)網絡,其中,各個關鍵詞具有相應的權重。
   2.提出一種面向領域的Deep Web查詢接口自動發(fā)現(xiàn)方法。通過對網頁源代碼、頁面視覺信息進行綜合利用,來確定一個頁面中的Deep Web查詢接口。使用頁面塊分割算法來將頁面分成幾個不重疊的區(qū)域,然后對代碼進行分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論