基于本體的視頻服務網站監(jiān)管技術研究.pdf_第1頁
已閱讀1頁,還剩119頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著網絡帶寬的提高、網絡用戶的增加,以及數碼產品的普及,網上視頻內容日益豐富,收看網絡視頻的用戶急劇增多,視頻服務網站也不斷涌現。然而由于開放性、匿名性以及資源缺乏統(tǒng)一管理的特點,互聯網在帶給人們便利的同時,許多不良視頻服務網站也混入其中。這些不良視頻服務網站對青少年的健康成長和社會的穩(wěn)定有著非常不利的影響。盡管國家已加大了打擊力度,然而事實上不良視頻服務網站仍然存在,且通過搜索引擎的幫助獲取的難度很低。因此如何自動發(fā)現和準確識別不良視

2、頻服務網站從而對其進行有效監(jiān)管成為了值得研究的問題。
   目前視頻服務網站監(jiān)管主要存在的難點和問題包括:(1)視頻服務網站的自動發(fā)現,目前僅中國的網站數量就已經達到230萬之多,如何從互聯網的海洋中自動發(fā)現視頻服務網站成為了視頻服務網站監(jiān)管的重要問題;(2)支持網站健康性評估的領域本體自動構建技術,不良視頻領域本體可以提供計算機可理解的不良視頻的語義描述,從而為后續(xù)的不良視頻網頁識別以及網站的健康性評估提供語義基礎,傳統(tǒng)的領域

3、本體自動構建方法多依賴于自然語言處理技術,受限于自然語言處理工具的性能,構建出的領域本體的質量往往不高;(3)基于領域本體的網站健康性分析評估技術,在擁有了不良視頻領域本體之后,如何設計出一種可以利用本體中的文字和結構信息的網頁相關度計算方法從而準確地計算出網站的健康性,就成為了值得研究的問題。針對這三個問題,本論文的主要研究工作和創(chuàng)新點如下:
   1.提出了視頻服務網站的自動發(fā)現方法。
   針對視頻服務網站自動發(fā)現

4、的問題,本文首先提出了一種基于元搜索的視頻服務網站的自動發(fā)現方法,該方法設計了一種關鍵詞更新和評價機制用以向元搜索系統(tǒng)提供高質量的搜索關鍵詞,元搜索的結果將作為初始網站列表提供給主題爬行模塊以進一步發(fā)現更多的視頻服務網站。通過分析網頁的標簽特征和候選播放器的視覺特征,本文提出了一種基于多特征多策略的視頻播放頁識別方法。在確定一個視頻播放頁后,將該頁面存為播放頁模板,后續(xù)視頻播放頁的識別利用其與播放頁模板的相似性來判定。在對搜索過程所遇到

5、的網頁及鏈接主題相關度的分析基礎上,本文提出了一種URL的預期剩余能量模型用以計算每個方向的搜索能量,進而決定主題爬蟲的搜索方向和步長。實驗中,基于多特征多策略的視頻播放頁識別準確率和召回率分別達到了99.21%和99.24%,而基于預期剩余能量模型的主題爬行算法則明顯優(yōu)于對比算法的性能。
   2.提出了基于超鏈接結構圖聚類的領域本體自動構建方法。
   針對領域本體自動構建的問題,著重研究了領域概念的自動識別和領域概

6、念間同義/近義關系的自動構建方法。首先,本文提出了基于超鏈接結構圖聚類的領域概念識別方法,該方法首先利用網絡爬蟲從指定的入口地址處深度受限廣度優(yōu)先遍歷Wiki頁面,構建關于某特定領域的無向超鏈接結構圖。然后利用得到的網頁數據庫和詞匯表構建詞匯-文檔矩陣,使用潛在語義索引算法和余弦相似度計算節(jié)點間的相似度,將該相似度作為相應邊的權重,再利用有權圖滲濾算法對有權無向鏈接結構圖進行聚類,并對聚類結果進行評估,進而得到相應的領域概念。針對概念間

7、同義/近義關系的自動構建,本文首先構建鏈接-詞語的共現矩陣,使用余弦相似度度量,再使用自底向上的凝聚型層次聚類算法對詞語進行聚類,從而得到詞語間的同義/近義關系。實驗結果顯示,領域概念識別的準確率在top-10階段接近96%,而同義/近義聯系的識別準確率則接近90%。
   3.提出了基于領域本體的網站健康性評估方法。
   針對網站健康性的計算問題,本文提出了一種基于領域本體的網站健康性計算方法。傳統(tǒng)的網頁分類和相關性

8、計算方法使用的文檔表示模型通常假設特征項之間是相互獨立的,并且特征詞的權值大都基于詞頻信息,忽略了詞的位置及上下文信息,而已有的本體分類系統(tǒng)只是將本體用于輔助分類的過程,無法有效利用到本體自身的結構和文字信息。針對這些問題,本文提出了一種基于網頁概念樹和領域本體樹匹配的網頁健康性計算方法。該方法首先提出了一種可以不依賴于獨立性假設的新的網頁文檔表示模型,并在該模型的基礎上使用了一種可以利用到詞語的位置及上下文信息的詞語加權算法,最后在新

9、的網頁表示模型的基礎上,提出了一種可以有效利用領域本體的結構及文字信息的網頁健康性計算方法。實驗結果顯示,該方法的不良網頁識別準確率、召回率和F1值分別為96%、95.7%和95.8%,視頻服務網站健康性評估的準確率則達到了95%。
   上述方法已部分應用于國家863項目“結合語義的視頻網站自動發(fā)現與分析評估服務”課題中的主題聚集搜索和網站內容分析評估部分,并將應用于國家科技支撐計劃“增強型搜索系統(tǒng)架構、關鍵技術及測試規(guī)范的研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論