基于Web的房地產數據挖掘及資源決策支持系統(tǒng).pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著網絡技術的廣泛應用,各行各業(yè)都建立了網站,用以發(fā)布數據,其中Deep Web擁有大量的半結構化數據,使網絡構成了一個巨大的、異構的、復雜的、免費的公共數據資源,研究如何應用Web數據挖掘技術,將用戶感興趣的數據從網站抽取出來,在本地進行分析、集成,形成結構化的、完整的、通用的、有應用價值的領域化數據庫,并對數據實現以決策支持系統(tǒng)為目的的增值應用,是Web數據挖掘領域中非常值得研究的熱點問題。
  本文以抽取房地產網上數據為目的

2、,分析了網上房地產數據的海量性,分布性,動態(tài)性,異構性等特點,設計了具有針對性的Web數據挖掘方法與集成方法,建立了面向房地產行業(yè)的Web數據挖掘系統(tǒng)模型與數據集成模式,并基于網上數據設計了決策支持系統(tǒng)的功能,在研究過程中,主要完成了以下工作:
  (1)分析房地產網頁生成技術,設計針對不同技術的Web數據抽取方法,制定了面向顯式數據網頁的網頁源代碼分析法,和面向隱式數據網頁的DOM樹分析方法,并根據實際情況應用兩種方法,提高數據

3、抽取速度。
  (2)分析列表頁數據與詳情頁數據特點,設計不同的數據抽取算法,制定通用Web數據抽取規(guī)則與數據清洗規(guī)則,并基于規(guī)則形成對特定網頁模式的抽取方案,設計穩(wěn)定的包裝器,實現Web數據的連續(xù)抽取。
  (3)建立Web數據抽取任務庫,以任務庫為中心,設計任務分發(fā)與數據回收策略,研究基于“服務器/客戶端”結構模式的分布式Web數據抽取系統(tǒng),以并行計算的方式來提高系統(tǒng)性能,縮短數據抽取時間,保證數據的時效性。
  

4、(4)建立術語字典,形成“網站術語-術語字典-模式屬性”的映射關系,并考慮可擴展性問題;利用術語字典對網絡行業(yè)詞匯進行聚類分析,解決網上異構數據源語義沖突問題,完成對異構數據源的集成。依據術語字典設計通用數據模式,并建立模式之間的關系,完成房地產基礎數據庫的建立。
  (5)分析網上房地產數據的變化特點,研究本地數據與網上數據的同步更新策略,針對網上數據的增量、內容變動和刪除情況,設計數據同步規(guī)則,實現本地數據庫周期性更新。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論