2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩127頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)以及電子數(shù)據(jù)急劇增長。為了有效地組織和管理互聯(lián)網(wǎng)上的海量文本信息,通常按照樹型或者有向無環(huán)圖結(jié)構(gòu)的主題類別層次對互聯(lián)網(wǎng)文本進行分類,將其組織為一個包含數(shù)千、甚至數(shù)萬個類別的分類目錄。通過建立全面、精確的互聯(lián)網(wǎng)分類目錄,可以實現(xiàn)快速、精細的網(wǎng)絡(luò)訪問控制。在這個過程中,大規(guī)模層次分類問題研究如何將互聯(lián)網(wǎng)文本準確地分到類別層次中的各個類別。面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)是構(gòu)建互聯(lián)網(wǎng)分類目錄的基礎(chǔ),是構(gòu)建健康、

2、和諧的互聯(lián)網(wǎng)環(huán)境的重要技術(shù)手段,同時也是信息檢索、綠色上網(wǎng)、網(wǎng)絡(luò)信譽管理、安全過濾等網(wǎng)絡(luò)應(yīng)用的基礎(chǔ)。
  與傳統(tǒng)文本分類不同,大規(guī)模層次分類的分類體系規(guī)模巨大,缺少足夠有效的訓練語料,其分類對象以web文本為主,同時正向社會化文本演進。這些特征使其與傳統(tǒng)的文本分類問題有很大差別,在技術(shù)上也帶來了更大的挑戰(zhàn)。本文在分析了相關(guān)工作的基礎(chǔ)上,主要針對大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學習缺少標注樣本、分類對象向社會化文

3、本演進等四個特性進行了研究,主要研究內(nèi)容和成果包括:
  1)對大規(guī)模層次分類問題進行了綜述。給出了大規(guī)模層次分類問題的定義,分析了大規(guī)模層次分類問題的求解策略;對大規(guī)模層次分類問題的求解方法加以分類,在分類的基礎(chǔ)上,介紹了各種典型的求解方法并進行對比;最后總結(jié)了大規(guī)模層次分類問題求解方法并指出了各種分類方法的適用性。
  2)針對類別層次規(guī)模巨大的特性,研究了基于候選類別搜索的兩階段分類方法,通過搜索類別層次中與待分類文檔

4、相關(guān)的候選類別,將大規(guī)模分類問題降低為一個規(guī)模較小的分類問題,然后根據(jù)候選類別的樣本訓練分類器,對文檔進行分類。首先對候選搜索相關(guān)概念進行定義并提出了候選搜索的量化評價指標;然后分析了候選搜索問題的計算復雜度,通過將集合覆蓋問題規(guī)約到候選搜索問題,證明了候選搜索問題是NP難的;進一步提出了一個基于貪心策略的啟發(fā)式候選搜索算法,證明了該算法采用的貪心策略是一個局部最優(yōu)選擇,并且該算法是多項式時間復雜度;在分類階段,根據(jù)候選類別在類別樹中的

5、上下文信息,利用祖先類別區(qū)分不同候選類別。最后,結(jié)合該候選搜索方法和祖先輔助策略實現(xiàn)了一個兩階段分類方法,綜合判斷文檔類別。我們采用ODP簡體中文目錄中的網(wǎng)頁數(shù)據(jù)進行了實驗論證,實驗結(jié)果顯示,相比已有算法,本文提出的候選類別搜索算法在候選類別搜索的準確率上提高了大約7.5%,在此基礎(chǔ)上,結(jié)合類別層次的兩階段分類方法取得了更好的分類效果。
  3)針對稀有類別實例稀少的特性,利用LDA主題模型挖掘文檔的主題特征,研究基于LDA特征抽

6、取的層次式分類方法。在主題類別層次中,一個主題類別通常包含一系列的子話題類別,文檔中的主題特征能夠很好地反映其所屬的類別,對此我們采用LDA模型進行主題特征抽取,將文檔從詞特征空間轉(zhuǎn)化到主題特征空間,通過特征降維以減小文本數(shù)據(jù)的高維稀疏問題。另外,結(jié)合類別層次進行樣本數(shù)據(jù)分組,以增加稀有類別的訓練樣本。由于LDA主題抽取的時間開銷比較大,我們采用了層次式分類模型,以降低分類學習和預測的時間開銷。最后,結(jié)合網(wǎng)頁數(shù)據(jù)的特點,采用適合處理小樣

7、本、高維模式問題的支持向量機模型訓練兩類分類器,提出了一個top-down分類框架進行分類的訓練和預測。我們在ODP簡體中文目錄上進行實驗測試,同基于特征詞的top-down分類方法相比,本文提出的方法能夠有效提高web主題目錄中稀有類別的分類性能。
  4)針對專家編制的分類體系缺少語料的問題,研究了無標記數(shù)據(jù)分類方法。傳統(tǒng)的文本分類方法需要標注好的語料來訓練分類器,但是人工標記語料代價昂貴。對此,本文結(jié)合類別知識和主題層次信息

8、來構(gòu)造web查詢,從多種web數(shù)據(jù)中搜索相關(guān)文檔并抽取學習樣本,為監(jiān)督學習找到分類依據(jù),并結(jié)合層次式支持向量機進行分類器的學習。針對web搜索結(jié)果中含有噪聲數(shù)據(jù)的問題,采用以下三個手段來提高分類學習效果:1)利用類別知識和類別層次信息構(gòu)造web查詢,采用節(jié)點的標簽路徑生成查詢關(guān)鍵詞;2)利用多數(shù)據(jù)源產(chǎn)生樣本,同時從谷歌搜索引擎、維基百科這兩個數(shù)據(jù)源搜索相關(guān)頁面和文檔,獲取全面的樣本數(shù)據(jù);3)結(jié)合類別層次對樣本數(shù)據(jù)分組,為每個類別獲得更加

9、完整的特征源,利用主題類別層次學習分類模型。最后實現(xiàn)了一種基于無標記web數(shù)據(jù)的層次式文本分類方法。我們在ODP簡體中文目錄數(shù)據(jù)集上進行實驗測試,本文提出的方法在分類精度上接近于有標注訓練樣本的監(jiān)督分類方法,但是避免了人工標注樣本的工作。
  5)針對社會化文本分類對象,提出了一個用戶主題模型UTM,根據(jù)微博的不同生成方式,將用戶興趣分為原創(chuàng)興趣和轉(zhuǎn)發(fā)興趣進行分析;采用吉布斯抽樣法對模型進行推導,分別發(fā)現(xiàn)用戶的原創(chuàng)主題偏好和轉(zhuǎn)發(fā)主

10、題偏好,然后以此計算用戶興趣詞。根據(jù)UTM模型發(fā)現(xiàn)的用戶興趣詞,可以實現(xiàn)微博用戶的關(guān)鍵詞標記和標簽推薦。我們在新浪微博數(shù)據(jù)集上驗證了UTM模型的性能表現(xiàn),實驗結(jié)果表明在微博用戶興趣詞標記上,其準確率高于已有方法。針對用戶興趣詞粒度太細,不能有效實現(xiàn)用戶分類的不足,隨后提出了一個有監(jiān)督的產(chǎn)生式模型uLTM,該模型將用戶偏好表示為標簽和主題,對用戶標簽進行主題建模。uLTM將用戶標簽類別作為一個觀察變量,將其引入產(chǎn)生式模型,利用主題模型的無

11、監(jiān)督學習機制發(fā)現(xiàn)微博中的隱含主題模式,利用有監(jiān)督學習發(fā)現(xiàn)用戶標簽的主題特征分布,然后推導微博用戶的主題類別,最終實現(xiàn)微博用戶的準確分類。我們在Twitter數(shù)據(jù)集上驗證了uLTM模型在微博用戶分類上的性能表現(xiàn),實驗結(jié)果表明該模型適合對主題含義明確的類別標簽進行建模與分類。
  綜上所述,本文針對大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學習缺少標注樣本、分類對象向社會化文本演進等四個特征,研究了大規(guī)模層次分類的候選類別搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論