版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)的發(fā)展和普及,網(wǎng)絡(luò)已經(jīng)走進(jìn)千家萬(wàn)戶,人們獲取新聞資訊的方式逐漸的由傳統(tǒng)的報(bào)紙、廣播、電視等方式向互聯(lián)網(wǎng)媒體轉(zhuǎn)變??墒敲鎸?duì)海量的數(shù)據(jù)資源,人們往往難以從中篩選出對(duì)自己有價(jià)值的信息,而且這些龐大的信息如何有效的整合和管理也是個(gè)問(wèn)題。所以為了有效的整合網(wǎng)絡(luò)新聞資源,以及方便用戶簡(jiǎn)潔而又全面的閱讀體驗(yàn),本系統(tǒng)中設(shè)計(jì)了一套完整的包含新聞爬取、關(guān)聯(lián)分析、分類以及價(jià)值預(yù)測(cè)的新聞分析系統(tǒng)。主要工作包含以下幾個(gè)方面:
1、在新聞相似性
2、檢測(cè)方面,實(shí)現(xiàn)了基于 TF-IDF特征提取和夾角余弦相似計(jì)算的新聞相似性度量,通過(guò)計(jì)算找出內(nèi)容相似的新聞,根據(jù)相似新聞之間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)新聞話題,以及根據(jù)新聞的發(fā)布時(shí)間,找出話題的源頭等功能。
2、在新聞的重復(fù)性檢測(cè)方面,提出了一種基于MinEDD度量的新聞重復(fù)性度量方法。為了過(guò)濾標(biāo)記重復(fù)新聞,改善用戶閱讀體驗(yàn),本系統(tǒng)中還在相似計(jì)算的基礎(chǔ)上進(jìn)行新聞的重復(fù)性檢測(cè)。該方法是受傳統(tǒng)編輯距離算法的啟發(fā)而來(lái),在新聞的重復(fù)性檢測(cè)中能夠保證
3、更高的檢測(cè)準(zhǔn)確率。
3、在新聞分類方面,本文中系統(tǒng)的分析了常用的多分類組合策略的優(yōu)劣勢(shì),結(jié)合本項(xiàng)目的特點(diǎn),提出并實(shí)現(xiàn)了一種基于特殊結(jié)構(gòu)的二叉樹支持向量機(jī)多分類算法BT-ED-SVM的新聞文本自動(dòng)分類系統(tǒng)。
4、在新聞的價(jià)值預(yù)測(cè)方面,結(jié)合新聞價(jià)值的要素,設(shè)計(jì)了一套通過(guò)百度新聞搜索平臺(tái)提取與新聞價(jià)值相關(guān)的特征,并編寫定時(shí)器自動(dòng)采集時(shí)間序列數(shù)據(jù),應(yīng)用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)的新聞價(jià)值預(yù)測(cè)系統(tǒng)。
5、基于上述的算法和功
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘的分類與預(yù)測(cè)研究.pdf
- 矩陣數(shù)據(jù)的分類預(yù)測(cè)方法
- 數(shù)據(jù)挖掘中的分類與預(yù)測(cè)模型的研究.pdf
- 大數(shù)據(jù)文本信息分類方法研究與實(shí)現(xiàn).pdf
- 客戶管理與分類方法的研究與實(shí)現(xiàn).pdf
- 高維生物數(shù)據(jù)的分類與預(yù)測(cè)研究.pdf
- 基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn)數(shù)據(jù)分類的研究與實(shí)現(xiàn).pdf
- 高維分類數(shù)據(jù)聚類方法研究與實(shí)現(xiàn)
- 基于特征分析和數(shù)據(jù)降維的復(fù)雜數(shù)據(jù)預(yù)測(cè)與分類方法研究.pdf
- 數(shù)據(jù)分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 糧情檢測(cè)系統(tǒng)中數(shù)據(jù)獲取與分析預(yù)測(cè)方法的研究與實(shí)現(xiàn).pdf
- 新聞價(jià)值與新聞人的價(jià)值
- 數(shù)據(jù)采集領(lǐng)域構(gòu)件分類、檢索方法研究與實(shí)現(xiàn).pdf
- 高維分類數(shù)據(jù)聚類方法研究與實(shí)現(xiàn).pdf
- 序列數(shù)據(jù)多分類問(wèn)題的研究與實(shí)現(xiàn).pdf
- 數(shù)據(jù)挖掘中決策分類的研究與實(shí)現(xiàn).pdf
- 電力負(fù)荷預(yù)測(cè)方法的研究與實(shí)現(xiàn).pdf
- 智能電網(wǎng)時(shí)序數(shù)據(jù)存儲(chǔ)與預(yù)測(cè)方法研究與實(shí)現(xiàn).pdf
- 面向智能電網(wǎng)的數(shù)據(jù)分類與預(yù)測(cè)技術(shù)研究.pdf
- 基于數(shù)據(jù)分類的混合存儲(chǔ)研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論