清華大學(xué)-中文web信息檢索論壇_第1頁
已閱讀1頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、SEWM2006中文網(wǎng)頁分類評測清華大學(xué)參賽隊報告,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國家重點實驗室徐舒xus05@mails.tsinghua.edu.cn,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁分類策略未來工作及建議參考文獻(xiàn),數(shù)據(jù)預(yù)處理-總體設(shè)計,zlib壓縮存儲處理全部200G數(shù)據(jù)保留原始網(wǎng)頁的頁面信息和鏈接關(guān)系中間數(shù)據(jù)可用于對網(wǎng)頁分類的進(jìn)一步的研究,數(shù)據(jù)預(yù)處理-HTML解析(1),網(wǎng)頁分類需要注意的

2、幾個問題:直接應(yīng)用純文本分類策略效果很差通常包含具有豐富語義信息的Tag通常含有大量噪聲可能包含多媒體信息而無確切的文本內(nèi)容提取HTML中如下標(biāo)簽和屬性: (keywords,description,etc), (Surrounding text)頁面正文信息實現(xiàn)方法:基于Python的HTMLParser類,重載其中部分接口,數(shù)據(jù)預(yù)處理-HTML解析(2),編碼轉(zhuǎn)換:常用網(wǎng)頁編碼格式:GBK/GB18030/

3、GB2312(簡體)BIG-5(繁體)UTF8/UTF16(通用) 只處理BIG5,GBK和UTF-8三種編碼統(tǒng)一轉(zhuǎn)碼成為GBK編碼(編碼轉(zhuǎn)換庫Libiconv)05年訓(xùn)練集中的編碼數(shù)量統(tǒng)計:BIG5:53,UTF-8:6,GBK:15457,數(shù)據(jù)預(yù)處理-信息抽取和去噪(1),在解析HTML的基礎(chǔ)上進(jìn)行表征同一網(wǎng)頁的不同形式頁面內(nèi)部信息標(biāo)題META信息頁面正文頁面鏈接文本W(wǎng)eb結(jié)構(gòu)信息 鏈入文本聚合,過濾

4、廣告噪聲(基于規(guī)則)無鏈接文字(AnchorText)鏈接文字周圍沒有非鏈接的文字鏈接文字中出現(xiàn)了給定的過濾關(guān)鍵詞,例如“下一頁”,“圖鈴”等缺乏可靠的抑制噪聲的措施不直接刪除廣告信息,而是給出標(biāo)記,由后續(xù)程序進(jìn)一步判斷,數(shù)據(jù)預(yù)處理-信息抽取和去噪(2),數(shù)據(jù)預(yù)處理-并行化,海量數(shù)據(jù),無進(jìn)程間通信,易于并行處理申請使用清華大學(xué)計算機(jī)集群系統(tǒng)128臺rx2600服務(wù)器作為計算節(jié)點 ,256 安騰CPU RedHat L

5、inux操作系統(tǒng) 每秒13300億次的峰值浮點運算能力 實際使用:12節(jié)點,預(yù)處理用時:28小時,數(shù)據(jù)預(yù)處理-中間數(shù)據(jù)格式,.IDCWT200G-DFHR23224.URLhttp://adminabc.bdwm.net/.METADATA@title:北大未明.ANCHORDATA首頁聯(lián)系我們.LINKSIN@link:http://edu.sina.com @anchortext:北大未明 @su

6、rroundingtext:點擊進(jìn)入北大為名網(wǎng)站 @Use:Y.LINKSOUT@link:http://adminabc.bdwm.net/about.html @anchortext:關(guān)于我們@surroundingtext:@Use:Y.CONTENT歡迎來到北大未明網(wǎng)站.CLASSID,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁分類策略未來工作及建議參考文獻(xiàn),分類策略-綜述,基于純文本分類策略向量空間模型采

7、用SVM(libSVM)作為試驗中統(tǒng)一使用的分類器特征的選擇遠(yuǎn)比分類器本身重要良好的泛化能力由于訓(xùn)練后模型只需考慮支持向量,分類速度快特征和權(quán)重二元串(Bigram)作為特征TF*IDF權(quán)重CHI-square進(jìn)行特征選擇,70000維,分類策略-多特征融合,多個來源,獨立表征網(wǎng)頁的信息的融合采用線性加權(quán)的方法融合使用插值法貪婪搜索確定各個特征的權(quán)重最終采用的融合策略(向量級特征融合):,分類策略-鏈接分析(1),網(wǎng)

8、頁間存在鏈接:主題存在一定關(guān)聯(lián)分類完成基礎(chǔ)上,簡單的標(biāo)簽傳播算法進(jìn)行refine(20G),Step1:給出20G目標(biāo)網(wǎng)頁集合中所有的網(wǎng)頁分類標(biāo)簽,并給出分類的置信度。Step2:對于那些進(jìn)行了歸一化之后分類置信度很低的網(wǎng)頁,我們認(rèn)為這些網(wǎng)頁的分類結(jié)果是不可靠的, Step3:對于上述所有置信度很低的網(wǎng)頁,觀察指向該網(wǎng)頁的所有網(wǎng)頁的分類結(jié)果,如果這些網(wǎng)頁均為分類置信度很高的網(wǎng)頁,并且在分類結(jié)果上有很強(qiáng)的內(nèi)聚性,則將當(dāng)前頁面的分類標(biāo)

9、簽更換為指向其的那些網(wǎng)頁的分類結(jié)果。,分類策略-鏈接分析(2),,,,,8類上的傳播效果,11類上的傳播效果,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁分類策略未來工作及建議參考文獻(xiàn),未來工作,更加有效的頁面去噪方法(VIPS,摘要等)更大規(guī)模的數(shù)據(jù)集上進(jìn)行鏈接分析改進(jìn)標(biāo)簽傳播的算法,一些感想和建議,8類的分類體系有些過于重疊:如娛樂和時尚用戶調(diào)查(User Study)的結(jié)果:在05年的1100篇測試集上進(jìn)行標(biāo)注比較8類

10、分類器的機(jī)器分類結(jié)果和用戶標(biāo)注存在用戶和機(jī)器標(biāo)注不一致但都合理的情況上述情形在分類置信度存在雙峰時尤為突出:(73/1100)層次分類(Google Directory)?多標(biāo)簽?,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁分類策略未來工作及建議參考文獻(xiàn),參考文獻(xiàn),[1] G.R. Xue, Q, Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Struc

11、ture for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2005), July 2005.[2] D. Cai, X. F. He, J. R. Wen and W.Y. Ma. Block-level Link An

12、alysis. The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2004), July 2004. [3] Y.H.Hu and G.M.Xin. Title Extraction from Bodies of HTML Documents and its

13、 application to Web Page Retrieval[4].J.Glover. Using Web Structure for Classifying and Describing Web Pages, www2002.[5] J. F¨urnkranz. Exploiting structural information for text classification on the WWW. In Int

14、elligent Data Analysis, pages 487–498, 1999.[6] S. Chakrabarti, B. Dom, and P. Indyk. Enhanced hypertext categorization using hyperlinks. SIGMOD Record (ACM Special Interest Group on Management of Data), 27(2):307–318,

15、June 1998.[7] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, MorganKaufmann Publishers, 1998.[8] Y. Yang, S. Slatt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論