

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、RSS為Really Simple Syndication (簡易供稿)的縮寫(也有稱RDF的),是某一站點用來和其它站點之間共享內容的一種簡易方式,是目前使用最廣泛的XML 應用之一。RSS借助XML 技術形式,完成互聯(lián)網站點間信息的自動傳送,XML是解決互聯(lián)網機器通信的重要基礎。RSS目前主要應用于新聞、博客等。 文本挖掘是數據挖掘的一個重要分支,是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并利用這些知識
2、更好地組織信息的過程。文本挖掘主要研究文本數據的檢索、分類和特征分析。 本文描述了一個收集、顯示、自動分類和倉儲RSS新聞的新聞系統(tǒng)的建立及相關的文本挖掘研究工作。本文的研究工作主要集中在以下幾方面: 1)設計RSS新聞中心,通過客戶端DOM對象集訪問RSS文檔。本文研究了RSS的應用情況,設計了基于 XML 的RSS新聞中心,鏈接到各網站的新聞,并設計了基于DOM對象集合的客戶端實現新聞的存取,并實現自動分類和分組功能
3、。 2)建立RSS數據倉儲結構,存儲歷史數據。為了分析和利用歷史的RSS數據,研究了歷史新聞數據的倉儲問題,分析了相關的數據倉庫領域和 XML 數據庫領域的技術,提出了文本數據倉儲系統(tǒng)的模型和存儲方式,定義了一系列的概念和操作,并將其用于構建RSS數據倉儲系統(tǒng)。構建了數據倉庫結構,并設計了數據倉儲系統(tǒng)的維護方案。 3)研究了文本特征提取方法。研究了文本特征提取方法,從現有RSS數據集中取得了關鍵詞,并用基于文本的FP-G
4、rowth 算法取得了關鍵詞與分類之間的關聯(lián),將取得的頻繁項集作為文本的特征。并提出了關鍵詞庫維護的方法。 4)研究了RSS信息的文本聚類情況。研究了K-means、K-medoids、層次聚類、密度聚類等方法應用在RSS文檔數據上的應用情況,提出了用基于區(qū)分參數的層次聚類方法,用此方法研究了RSS文檔的自然分類情況,統(tǒng)一了文檔的分類。本文還研究了層次聚類方法的規(guī)律,使用該方法在客戶端對分類內部數據進行分組,使內容相似的的文章被
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數據挖掘技術在電視臺新聞中心的應用研究.pdf
- [建筑]新聞中心
- 基于RSS的新聞采集系統(tǒng)的研究與應用.pdf
- 報紙如何重建新聞中心
- 電視臺新聞中心EAI應用研究.pdf
- 生物試卷-新聞中心-青島新聞網
- 新聞中心年終工作總結
- 撫順石化新聞中心信息管理系統(tǒng)規(guī)劃研究.pdf
- GXTV大新聞中心員工激勵研究.pdf
- 新聞中心工作計劃綱要
- 大學新聞中心工作總結
- 新聞中心個人工作總結
- 基于用戶行為挖掘的數據中心系統(tǒng)的設計與實現.pdf
- 秦皇島經濟技術開發(fā)區(qū)新聞中心
- 數字無中心系統(tǒng)中語音編碼技術的開發(fā)與應用.pdf
- SMG電視新聞中心新聞共享平臺的研究和實現.pdf
- 基于web文本挖掘技術的研究與應用.pdf
- 奧運新聞中心無線接入方案設計.pdf
- 成都市金牛區(qū)新聞中心
- 中文文本挖掘技術的研究與應用.pdf
評論
0/150
提交評論