面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：128 大?。?.18MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩127頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的發(fā)展，互聯(lián)網(wǎng)數(shù)據(jù)以及電子數(shù)據(jù)急劇增長(zhǎng)。為了有效地組織和管理互聯(lián)網(wǎng)上的海量文本信息，通常按照樹(shù)型或者有向無(wú)環(huán)圖結(jié)構(gòu)的主題類別層次對(duì)互聯(lián)網(wǎng)文本進(jìn)行分類，將其組織為一個(gè)包含數(shù)千、甚至數(shù)萬(wàn)個(gè)類別的分類目錄。通過(guò)建立全面、精確的互聯(lián)網(wǎng)分類目錄，可以實(shí)現(xiàn)快速、精細(xì)的網(wǎng)絡(luò)訪問(wèn)控制。在這個(gè)過(guò)程中，大規(guī)模層次分類問(wèn)題研究如何將互聯(lián)網(wǎng)文本準(zhǔn)確地分到類別層次中的各個(gè)類別。面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)是構(gòu)建互聯(lián)網(wǎng)分類目錄的基礎(chǔ)，是構(gòu)建健康、

2、和諧的互聯(lián)網(wǎng)環(huán)境的重要技術(shù)手段，同時(shí)也是信息檢索、綠色上網(wǎng)、網(wǎng)絡(luò)信譽(yù)管理、安全過(guò)濾等網(wǎng)絡(luò)應(yīng)用的基礎(chǔ)。
　　與傳統(tǒng)文本分類不同，大規(guī)模層次分類的分類體系規(guī)模巨大，缺少足夠有效的訓(xùn)練語(yǔ)料，其分類對(duì)象以web文本為主，同時(shí)正向社會(huì)化文本演進(jìn)。這些特征使其與傳統(tǒng)的文本分類問(wèn)題有很大差別，在技術(shù)上也帶來(lái)了更大的挑戰(zhàn)。本文在分析了相關(guān)工作的基礎(chǔ)上，主要針對(duì)大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學(xué)習(xí)缺少標(biāo)注樣本、分類對(duì)象向社會(huì)化文

3、本演進(jìn)等四個(gè)特性進(jìn)行了研究，主要研究?jī)?nèi)容和成果包括：
　　1)對(duì)大規(guī)模層次分類問(wèn)題進(jìn)行了綜述。給出了大規(guī)模層次分類問(wèn)題的定義，分析了大規(guī)模層次分類問(wèn)題的求解策略；對(duì)大規(guī)模層次分類問(wèn)題的求解方法加以分類，在分類的基礎(chǔ)上，介紹了各種典型的求解方法并進(jìn)行對(duì)比；最后總結(jié)了大規(guī)模層次分類問(wèn)題求解方法并指出了各種分類方法的適用性。
　　2)針對(duì)類別層次規(guī)模巨大的特性，研究了基于候選類別搜索的兩階段分類方法，通過(guò)搜索類別層次中與待分類文檔

4、相關(guān)的候選類別，將大規(guī)模分類問(wèn)題降低為一個(gè)規(guī)模較小的分類問(wèn)題，然后根據(jù)候選類別的樣本訓(xùn)練分類器，對(duì)文檔進(jìn)行分類。首先對(duì)候選搜索相關(guān)概念進(jìn)行定義并提出了候選搜索的量化評(píng)價(jià)指標(biāo)；然后分析了候選搜索問(wèn)題的計(jì)算復(fù)雜度，通過(guò)將集合覆蓋問(wèn)題規(guī)約到候選搜索問(wèn)題，證明了候選搜索問(wèn)題是NP難的；進(jìn)一步提出了一個(gè)基于貪心策略的啟發(fā)式候選搜索算法，證明了該算法采用的貪心策略是一個(gè)局部最優(yōu)選擇，并且該算法是多項(xiàng)式時(shí)間復(fù)雜度；在分類階段，根據(jù)候選類別在類別樹(shù)中的

5、上下文信息，利用祖先類別區(qū)分不同候選類別。最后，結(jié)合該候選搜索方法和祖先輔助策略實(shí)現(xiàn)了一個(gè)兩階段分類方法，綜合判斷文檔類別。我們采用ODP簡(jiǎn)體中文目錄中的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)論證，實(shí)驗(yàn)結(jié)果顯示，相比已有算法，本文提出的候選類別搜索算法在候選類別搜索的準(zhǔn)確率上提高了大約7.5％，在此基礎(chǔ)上，結(jié)合類別層次的兩階段分類方法取得了更好的分類效果。
　　3)針對(duì)稀有類別實(shí)例稀少的特性，利用LDA主題模型挖掘文檔的主題特征，研究基于LDA特征抽

6、取的層次式分類方法。在主題類別層次中，一個(gè)主題類別通常包含一系列的子話題類別，文檔中的主題特征能夠很好地反映其所屬的類別，對(duì)此我們采用LDA模型進(jìn)行主題特征抽取，將文檔從詞特征空間轉(zhuǎn)化到主題特征空間，通過(guò)特征降維以減小文本數(shù)據(jù)的高維稀疏問(wèn)題。另外，結(jié)合類別層次進(jìn)行樣本數(shù)據(jù)分組，以增加稀有類別的訓(xùn)練樣本。由于LDA主題抽取的時(shí)間開(kāi)銷比較大，我們采用了層次式分類模型，以降低分類學(xué)習(xí)和預(yù)測(cè)的時(shí)間開(kāi)銷。最后，結(jié)合網(wǎng)頁(yè)數(shù)據(jù)的特點(diǎn)，采用適合處理小樣

7、本、高維模式問(wèn)題的支持向量機(jī)模型訓(xùn)練兩類分類器，提出了一個(gè)top-down分類框架進(jìn)行分類的訓(xùn)練和預(yù)測(cè)。我們?cè)贠DP簡(jiǎn)體中文目錄上進(jìn)行實(shí)驗(yàn)測(cè)試，同基于特征詞的top-down分類方法相比，本文提出的方法能夠有效提高web主題目錄中稀有類別的分類性能。
　　4)針對(duì)專家編制的分類體系缺少語(yǔ)料的問(wèn)題，研究了無(wú)標(biāo)記數(shù)據(jù)分類方法。傳統(tǒng)的文本分類方法需要標(biāo)注好的語(yǔ)料來(lái)訓(xùn)練分類器，但是人工標(biāo)記語(yǔ)料代價(jià)昂貴。對(duì)此，本文結(jié)合類別知識(shí)和主題層次信息

8、來(lái)構(gòu)造web查詢，從多種web數(shù)據(jù)中搜索相關(guān)文檔并抽取學(xué)習(xí)樣本，為監(jiān)督學(xué)習(xí)找到分類依據(jù)，并結(jié)合層次式支持向量機(jī)進(jìn)行分類器的學(xué)習(xí)。針對(duì)web搜索結(jié)果中含有噪聲數(shù)據(jù)的問(wèn)題，采用以下三個(gè)手段來(lái)提高分類學(xué)習(xí)效果：1）利用類別知識(shí)和類別層次信息構(gòu)造web查詢，采用節(jié)點(diǎn)的標(biāo)簽路徑生成查詢關(guān)鍵詞；2）利用多數(shù)據(jù)源產(chǎn)生樣本，同時(shí)從谷歌搜索引擎、維基百科這兩個(gè)數(shù)據(jù)源搜索相關(guān)頁(yè)面和文檔，獲取全面的樣本數(shù)據(jù)；3）結(jié)合類別層次對(duì)樣本數(shù)據(jù)分組，為每個(gè)類別獲得更加

9、完整的特征源，利用主題類別層次學(xué)習(xí)分類模型。最后實(shí)現(xiàn)了一種基于無(wú)標(biāo)記web數(shù)據(jù)的層次式文本分類方法。我們?cè)贠DP簡(jiǎn)體中文目錄數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試，本文提出的方法在分類精度上接近于有標(biāo)注訓(xùn)練樣本的監(jiān)督分類方法，但是避免了人工標(biāo)注樣本的工作。
　　5)針對(duì)社會(huì)化文本分類對(duì)象，提出了一個(gè)用戶主題模型UTM，根據(jù)微博的不同生成方式，將用戶興趣分為原創(chuàng)興趣和轉(zhuǎn)發(fā)興趣進(jìn)行分析；采用吉布斯抽樣法對(duì)模型進(jìn)行推導(dǎo)，分別發(fā)現(xiàn)用戶的原創(chuàng)主題偏好和轉(zhuǎn)發(fā)主

10、題偏好，然后以此計(jì)算用戶興趣詞。根據(jù)UTM模型發(fā)現(xiàn)的用戶興趣詞，可以實(shí)現(xiàn)微博用戶的關(guān)鍵詞標(biāo)記和標(biāo)簽推薦。我們?cè)谛吕宋⒉?shù)據(jù)集上驗(yàn)證了UTM模型的性能表現(xiàn)，實(shí)驗(yàn)結(jié)果表明在微博用戶興趣詞標(biāo)記上，其準(zhǔn)確率高于已有方法。針對(duì)用戶興趣詞粒度太細(xì)，不能有效實(shí)現(xiàn)用戶分類的不足，隨后提出了一個(gè)有監(jiān)督的產(chǎn)生式模型uLTM，該模型將用戶偏好表示為標(biāo)簽和主題，對(duì)用戶標(biāo)簽進(jìn)行主題建模。uLTM將用戶標(biāo)簽類別作為一個(gè)觀察變量，將其引入產(chǎn)生式模型，利用主題模型的無(wú)

11、監(jiān)督學(xué)習(xí)機(jī)制發(fā)現(xiàn)微博中的隱含主題模式，利用有監(jiān)督學(xué)習(xí)發(fā)現(xiàn)用戶標(biāo)簽的主題特征分布，然后推導(dǎo)微博用戶的主題類別，最終實(shí)現(xiàn)微博用戶的準(zhǔn)確分類。我們?cè)赥witter數(shù)據(jù)集上驗(yàn)證了uLTM模型在微博用戶分類上的性能表現(xiàn)，實(shí)驗(yàn)結(jié)果表明該模型適合對(duì)主題含義明確的類別標(biāo)簽進(jìn)行建模與分類。
　　綜上所述，本文針對(duì)大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學(xué)習(xí)缺少標(biāo)注樣本、分類對(duì)象向社會(huì)化文本演進(jìn)等四個(gè)特征，研究了大規(guī)模層次分類的候選類別搜

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載