面向互聯網文本的大規(guī)模層次分類技術研究.pdf_第1頁
已閱讀1頁,還剩127頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著信息技術的發(fā)展,互聯網數據以及電子數據急劇增長。為了有效地組織和管理互聯網上的海量文本信息,通常按照樹型或者有向無環(huán)圖結構的主題類別層次對互聯網文本進行分類,將其組織為一個包含數千、甚至數萬個類別的分類目錄。通過建立全面、精確的互聯網分類目錄,可以實現快速、精細的網絡訪問控制。在這個過程中,大規(guī)模層次分類問題研究如何將互聯網文本準確地分到類別層次中的各個類別。面向互聯網文本的大規(guī)模層次分類技術是構建互聯網分類目錄的基礎,是構建健康、

2、和諧的互聯網環(huán)境的重要技術手段,同時也是信息檢索、綠色上網、網絡信譽管理、安全過濾等網絡應用的基礎。
  與傳統(tǒng)文本分類不同,大規(guī)模層次分類的分類體系規(guī)模巨大,缺少足夠有效的訓練語料,其分類對象以web文本為主,同時正向社會化文本演進。這些特征使其與傳統(tǒng)的文本分類問題有很大差別,在技術上也帶來了更大的挑戰(zhàn)。本文在分析了相關工作的基礎上,主要針對大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學習缺少標注樣本、分類對象向社會化文

3、本演進等四個特性進行了研究,主要研究內容和成果包括:
  1)對大規(guī)模層次分類問題進行了綜述。給出了大規(guī)模層次分類問題的定義,分析了大規(guī)模層次分類問題的求解策略;對大規(guī)模層次分類問題的求解方法加以分類,在分類的基礎上,介紹了各種典型的求解方法并進行對比;最后總結了大規(guī)模層次分類問題求解方法并指出了各種分類方法的適用性。
  2)針對類別層次規(guī)模巨大的特性,研究了基于候選類別搜索的兩階段分類方法,通過搜索類別層次中與待分類文檔

4、相關的候選類別,將大規(guī)模分類問題降低為一個規(guī)模較小的分類問題,然后根據候選類別的樣本訓練分類器,對文檔進行分類。首先對候選搜索相關概念進行定義并提出了候選搜索的量化評價指標;然后分析了候選搜索問題的計算復雜度,通過將集合覆蓋問題規(guī)約到候選搜索問題,證明了候選搜索問題是NP難的;進一步提出了一個基于貪心策略的啟發(fā)式候選搜索算法,證明了該算法采用的貪心策略是一個局部最優(yōu)選擇,并且該算法是多項式時間復雜度;在分類階段,根據候選類別在類別樹中的

5、上下文信息,利用祖先類別區(qū)分不同候選類別。最后,結合該候選搜索方法和祖先輔助策略實現了一個兩階段分類方法,綜合判斷文檔類別。我們采用ODP簡體中文目錄中的網頁數據進行了實驗論證,實驗結果顯示,相比已有算法,本文提出的候選類別搜索算法在候選類別搜索的準確率上提高了大約7.5%,在此基礎上,結合類別層次的兩階段分類方法取得了更好的分類效果。
  3)針對稀有類別實例稀少的特性,利用LDA主題模型挖掘文檔的主題特征,研究基于LDA特征抽

6、取的層次式分類方法。在主題類別層次中,一個主題類別通常包含一系列的子話題類別,文檔中的主題特征能夠很好地反映其所屬的類別,對此我們采用LDA模型進行主題特征抽取,將文檔從詞特征空間轉化到主題特征空間,通過特征降維以減小文本數據的高維稀疏問題。另外,結合類別層次進行樣本數據分組,以增加稀有類別的訓練樣本。由于LDA主題抽取的時間開銷比較大,我們采用了層次式分類模型,以降低分類學習和預測的時間開銷。最后,結合網頁數據的特點,采用適合處理小樣

7、本、高維模式問題的支持向量機模型訓練兩類分類器,提出了一個top-down分類框架進行分類的訓練和預測。我們在ODP簡體中文目錄上進行實驗測試,同基于特征詞的top-down分類方法相比,本文提出的方法能夠有效提高web主題目錄中稀有類別的分類性能。
  4)針對專家編制的分類體系缺少語料的問題,研究了無標記數據分類方法。傳統(tǒng)的文本分類方法需要標注好的語料來訓練分類器,但是人工標記語料代價昂貴。對此,本文結合類別知識和主題層次信息

8、來構造web查詢,從多種web數據中搜索相關文檔并抽取學習樣本,為監(jiān)督學習找到分類依據,并結合層次式支持向量機進行分類器的學習。針對web搜索結果中含有噪聲數據的問題,采用以下三個手段來提高分類學習效果:1)利用類別知識和類別層次信息構造web查詢,采用節(jié)點的標簽路徑生成查詢關鍵詞;2)利用多數據源產生樣本,同時從谷歌搜索引擎、維基百科這兩個數據源搜索相關頁面和文檔,獲取全面的樣本數據;3)結合類別層次對樣本數據分組,為每個類別獲得更加

9、完整的特征源,利用主題類別層次學習分類模型。最后實現了一種基于無標記web數據的層次式文本分類方法。我們在ODP簡體中文目錄數據集上進行實驗測試,本文提出的方法在分類精度上接近于有標注訓練樣本的監(jiān)督分類方法,但是避免了人工標注樣本的工作。
  5)針對社會化文本分類對象,提出了一個用戶主題模型UTM,根據微博的不同生成方式,將用戶興趣分為原創(chuàng)興趣和轉發(fā)興趣進行分析;采用吉布斯抽樣法對模型進行推導,分別發(fā)現用戶的原創(chuàng)主題偏好和轉發(fā)主

10、題偏好,然后以此計算用戶興趣詞。根據UTM模型發(fā)現的用戶興趣詞,可以實現微博用戶的關鍵詞標記和標簽推薦。我們在新浪微博數據集上驗證了UTM模型的性能表現,實驗結果表明在微博用戶興趣詞標記上,其準確率高于已有方法。針對用戶興趣詞粒度太細,不能有效實現用戶分類的不足,隨后提出了一個有監(jiān)督的產生式模型uLTM,該模型將用戶偏好表示為標簽和主題,對用戶標簽進行主題建模。uLTM將用戶標簽類別作為一個觀察變量,將其引入產生式模型,利用主題模型的無

11、監(jiān)督學習機制發(fā)現微博中的隱含主題模式,利用有監(jiān)督學習發(fā)現用戶標簽的主題特征分布,然后推導微博用戶的主題類別,最終實現微博用戶的準確分類。我們在Twitter數據集上驗證了uLTM模型在微博用戶分類上的性能表現,實驗結果表明該模型適合對主題含義明確的類別標簽進行建模與分類。
  綜上所述,本文針對大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學習缺少標注樣本、分類對象向社會化文本演進等四個特征,研究了大規(guī)模層次分類的候選類別搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論