

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、當(dāng)前社會(huì)上用于信息交互的各種社交平臺(tái)、即時(shí)通訊工具日益普及。這些用來(lái)信息交流的平臺(tái)工具目前主要使用短文本作為信息傳播與交互的載體,其方便、快捷、高效的特點(diǎn)適合當(dāng)今信息化、快節(jié)奏的生活。
所謂短文本主要是指手機(jī)短信、微博、商品評(píng)論、論壇帖子等一類長(zhǎng)度較短,字?jǐn)?shù)有限的文本。在該類短文本中,往往存在著大量的違反信息交互平臺(tái)使用規(guī)定的違法的垃圾類文本,例如垃圾短信、廣告微博、虛假評(píng)論等。由于短文本長(zhǎng)度較短,字?jǐn)?shù)有限,編輯來(lái)源廣泛且內(nèi)容
2、編輯存在諸多不規(guī)范。因此,對(duì)其進(jìn)行二分類,識(shí)別其中的垃圾類短文本時(shí)將會(huì)面臨三個(gè)問(wèn)題:(1)數(shù)據(jù)噪聲大;(2)訓(xùn)練數(shù)據(jù)集不平衡;(3)如果直接采用基于詞表的向量空間模型來(lái)表示短文本,將會(huì)導(dǎo)致特征向量過(guò)于稀疏且維度較高。
針對(duì)以上三個(gè)問(wèn)題,本文主要進(jìn)行了以下研究:
1)提出了適用于短文本的預(yù)處理方法,對(duì)短文本數(shù)據(jù)進(jìn)行規(guī)范化處理,主要包括“錯(cuò)別字糾正”、“繁體字轉(zhuǎn)換”、“大小寫(xiě)字母的轉(zhuǎn)換”、“同類信息的統(tǒng)一化表示”等,在一
3、定程度上減少數(shù)據(jù)集中存在的噪聲。
2)從短文本內(nèi)容的編輯語(yǔ)法、用詞特點(diǎn)等及非內(nèi)容的結(jié)構(gòu)屬性,即多個(gè)角度來(lái)提取特征,避免采用基于詞表的向量空間模型表示短文本時(shí),特征向量過(guò)于稀疏且維度較高。
3)提出了隨機(jī)森林與 Adaboost相結(jié)合的“隨機(jī)森林+Adaboost”集成分類方法,該方法將隨機(jī)森林作為Adaboost算法的基分類器,用來(lái)降低數(shù)據(jù)噪聲及數(shù)據(jù)不平衡所帶來(lái)的影響。
由于短信與商品評(píng)論在內(nèi)容上具有較大相
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中文短文本實(shí)體識(shí)別和鏈接研究.pdf
- 中文機(jī)構(gòu)名稱的自動(dòng)識(shí)別.pdf
- 基于實(shí)體關(guān)系的中文短文本組織名識(shí)別研究.pdf
- 中文短文本命名實(shí)體識(shí)別方法研究.pdf
- 中文地名的自動(dòng)識(shí)別和標(biāo)準(zhǔn)化.pdf
- 中文時(shí)間表達(dá)式自動(dòng)識(shí)別的研究.pdf
- 中文姓名自動(dòng)識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 車型自動(dòng)識(shí)別研究.pdf
- 自動(dòng)識(shí)別技術(shù)
- 中文短文本命名實(shí)體識(shí)別方法與應(yīng)用研究.pdf
- 中文評(píng)論短文本的評(píng)價(jià)對(duì)象抽取研究.pdf
- 車牌自動(dòng)識(shí)別系統(tǒng)的研究.pdf
- 鐵路客票自動(dòng)識(shí)別技術(shù)的研究.pdf
- 車輛自動(dòng)識(shí)別系統(tǒng)的研究.pdf
- 自動(dòng)識(shí)別技術(shù) (1)
- 車牌自動(dòng)識(shí)別方法研究.pdf
- 車牌字符自動(dòng)識(shí)別的研究.pdf
- 中文短文本情感分類方法的研究與實(shí)現(xiàn).pdf
- 自動(dòng)識(shí)別lrc歌詞
- 中文短文本分類的相關(guān)技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論