版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、在Web中檢索一個查詢詞,搜索引擎往往會返回成千上萬的搜索結果,這些結果絕大部分對于某個特定的用戶而言都是不相關的,用戶必須通過瀏覽冗長的列表或層次結構復雜的樹型結構才能找到自己所需要的信息。列表方式呈現(xiàn)的信息內容清晰明了,但無法體現(xiàn)產品信息之間的聯(lián)系與差異,80%的網絡用戶不會查看搜索結果第三頁以后的內容;樹型結構能較好的體現(xiàn)層次關系,但產品分類都是事先設定的,用戶查找產品信息時往往需要按照固定的路徑查詢,缺乏靈活性。因此,為了幫助用
2、戶從搜索結果中篩選出真正感興趣的產品,必須設計出一種簡潔、實用而又能快速準確查找產品信息的查詢及瀏覽方式。 通過研究形式概念分析理論發(fā)現(xiàn),概念格結構實際上是一個概念間關系的網絡結構,在這個網絡關系結構中概念之間存在著一些隱含的直接或者間接關系,例如,上下層概念格節(jié)點之間的繼承關系、概念之間的二元關系、同一層概念格節(jié)點之間的關聯(lián)性等。如果將這些關系應用到產品信息展示中,它不但實現(xiàn)了用戶興趣產品的表示,而且用戶除了能發(fā)現(xiàn)關注產品信息
3、,還能發(fā)現(xiàn)與這些信息相關聯(lián)的其他產品信息,提高了發(fā)現(xiàn)有用信息的準確率的同時也豐富了檢索結果的相關內容?;诖?,本文提出了形式概念分析理論與實際相結合的基于FCA的產品信息提取和結構化顯示方法。 本文主要包含兩部分內容,一部分是Web信息提取,另一部分是基于概念格的產品信息顯示及優(yōu)化策略。 信息提取部分的主要任務是從Web頁面中提取出產品信息的具體屬性內容。本文采用基于正則表達式的信息提取方法從Web頁面的HTMI。代碼中
4、匹配獲取有關的數(shù)據(jù)?;谡齽t表達式的信息提取技術思路如下:首先從Web中獲取包含目標信息的頁面:然后對Web頁面進行解析,從而得到頁面對應的HTML代碼;接著對Web頁面結構進行分析,編寫合適的正則表達式;最后對Web頁面進行模式匹配,力圖使系統(tǒng)擁有自動分析大部分網頁并提取和歸類保存其中用戶需求信息的功能。 基于概念格的產品信息顯示及優(yōu)化策略主要是利用概念格結構中各個節(jié)點之間具有的偏序關系來表現(xiàn)同類產品之間的聯(lián)系與差異,為用戶的
5、購買提供決策幫助。本文在這部分工作中,首先對概念格中存在的各種隱含關系進行研究;然后根據(jù)概念格結構特點提出了利用概念格結構展示產品信息的觀點;由于概念格結構不僅要能準確的展示信息間的關聯(lián),而且要能剔除不相關的信息以降低顯示復雜度、提高信息的可用性,提出了關鍵格及關鍵形式概念的定義,并給出了從關鍵格中挖掘核心形式概念的方法;挖掘出的核心概念在表示產品信息時是不同的具體的產品,通過屬性關聯(lián)性的度量方法,本文給出了度量不同產品之間的關聯(lián)程度的
6、方法。本文的主要貢獻如下: (1)利用正則表達式強大的信息匹配能力,對Web中的產品參數(shù)信息進行有選擇的提取,從而得到用戶需要的結果。 (2)提出了使用概念格結構展示產品信息的觀點,這種方式不僅僅能為用戶提供一個清晰的概念層次關系,方便用戶瀏覽和選擇感興趣的內容,而且能清晰的表現(xiàn)信息之間的聯(lián)系與差異。 (3)提出了關鍵形式概念、關鍵格的定義以及從關鍵格結構中挖掘核心形式概念的方法。 (4)提出一種基于屬性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 非結構化數(shù)據(jù)信息提取的研究和實現(xiàn)
- 非結構化數(shù)據(jù)信息提取的研究和實現(xiàn).pdf
- 基于XML的半結構化Web信息提取的研究.pdf
- 基于網站結構分析頁面信息提取的方法研究.pdf
- 基于模型定義的CAD信息提取和重用方法的研究.pdf
- 非結構化數(shù)據(jù)提取方法研究.pdf
- 基于知識的道路信息提取方法研究.pdf
- 基于極化干涉SAR的森林結構信息提取模型與方法.pdf
- 基于Web的半結構化信息抽取方法研究.pdf
- 基于遙感影像的道路信息提取方法研究.pdf
- 基于統(tǒng)計方法的遙感信息提取研究.pdf
- 基于元數(shù)據(jù)的web信息提取方法研究.pdf
- 結構磁共振影像特征信息提取方法研究.pdf
- 基于XML的產品信息集成.pdf
- 海和產品信息表
- 產品信息和操作指南
- 基于英文產品信息的特征提取與觀點分類研究.pdf
- 產品信息
- 支票圖像信息提取的方法研究.pdf
- 基于SAR圖像的冰雪覆蓋信息提取方法研究.pdf
評論
0/150
提交評論