版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2024/2/29,第8章 文本挖掘與Web 數(shù)據(jù)挖掘,文本挖掘 Web數(shù)據(jù)挖掘>>案例五:跨語(yǔ)言智能學(xué)術(shù)搜索系統(tǒng)>>案例六:基于內(nèi)容的垃圾郵件識(shí)別>>,8.1 文本挖掘,8.1.1 分詞8.1.2 文本表示與詞權(quán)重計(jì)算8.1.3 文本特征選擇8.1.4 文本分類(lèi)8.1.5 文本聚類(lèi)8.1.6 文檔自動(dòng)摘要,2024/2/29,8.1.1 分詞,分詞(詞切分)是指將連續(xù)的字序列按照一定
2、的規(guī)范重新組合成詞序列的過(guò)程英文:?jiǎn)卧~之間以空格作為自然分界符,容易中文:詞沒(méi)有一個(gè)形式上的分界符,難中文分詞極具挑戰(zhàn)性的問(wèn)題歧義切分問(wèn)題:[研究/生]物;學(xué)生會(huì)|學(xué)生會(huì)玩魔方未登錄詞問(wèn)題:新詞(木有、凡客體),人名等分詞法主要分為以下三大類(lèi):基于詞典的方法、基于統(tǒng)計(jì)的方法、基于語(yǔ)法分析的方法,2024/2/29,基于詞典的分詞法,正向最大匹配從左開(kāi)始算起,最大是指從一個(gè)設(shè)定的長(zhǎng)度開(kāi)始匹配,直到第一個(gè)匹配成功就切分成為一個(gè)
3、詞逆向最大匹配與正向最大匹配相似,區(qū)別在于從右至左匹配例子:研究生命起源正向匹配結(jié)果:研究生/命/起源逆向匹配結(jié)果:研究/生命/起源特點(diǎn):簡(jiǎn)單,易實(shí)現(xiàn);正確率受詞典大小限制,2024/2/29,基于統(tǒng)計(jì)的分詞法,假設(shè):詞是穩(wěn)定的單字組合,直觀地,在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典(統(tǒng)計(jì))分詞法基于統(tǒng)計(jì)模型的分詞方法是研究熱點(diǎn),如基于
4、隱馬爾可夫的方法、基于最大熵的方法特點(diǎn):精度高、詞性標(biāo)注、命名實(shí)體識(shí)別;需要語(yǔ)料作支撐,2024/2/29,基于中文語(yǔ)法的分詞方法,通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法和語(yǔ)義信息來(lái)處理歧義現(xiàn)象包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分特點(diǎn):由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,基于理解的分詞系統(tǒng)還處在試驗(yàn)階段,2024/2/29,常見(jiàn)分詞工具,ICTCLAS中
5、國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)采用層疊隱馬爾可夫模型中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,新詞識(shí)別支持C/C++/C#/Delphi/Java等主流開(kāi)發(fā)語(yǔ)言imdict-Chinese-analyzerICTCLAS中文分詞程序基于Java的重新實(shí)現(xiàn)采用基于隱馬爾科夫模型的方法直接為L(zhǎng)ucene搜索引擎提供簡(jiǎn)體中文分詞支持,2024/2/29,常見(jiàn)分詞工具(續(xù)),IKAnalyzer采用特有的“正向迭代最細(xì)粒度切分算法”基于J
6、ava語(yǔ)言開(kāi)發(fā)的輕量級(jí)開(kāi)源分詞工具包60萬(wàn)字/秒的高速處理能力簡(jiǎn)易中文分詞系統(tǒng)SCWShightman 個(gè)人開(kāi)發(fā)采用標(biāo)準(zhǔn)C開(kāi)發(fā)提供 C接口、PHP擴(kuò)展(源碼、WIN32的DLL文件),2024/2/29,常見(jiàn)分詞工具(續(xù)),盤(pán)古分詞基于.net Framework的中英文分詞組件中文未登錄詞識(shí)別、人名識(shí)別、多元分詞等功能支持英文專(zhuān)用詞識(shí)別、英文原詞輸出、英文大小寫(xiě)同時(shí)輸出等單線(xiàn)程分詞速度為390 KB/s,雙線(xiàn)程分詞速
7、度為690 KB/s( Core Duo 1.8 GHz )其它 Paoding(庖丁解牛分詞)、HTTPCWS、MMSEG4J以及CC-CEDICT等,2024/2/29,8.1.2 文本表示與詞權(quán)重計(jì)算,目前文本表示主要是采用向量空間模型(Vector Space Model,VSM)每個(gè)文本被表示為在一個(gè)高維詞條空間中的一個(gè)向量詞條權(quán)重wi,j一般采用TF×IDF方法來(lái)計(jì)算得到,2024/2/29,,,,,8.
8、1.3 文本特征選擇,文本特征選擇是根據(jù)某種準(zhǔn)則從原始特征中選擇部分最有區(qū)分類(lèi)別能力的特征主要分為無(wú)監(jiān)督和有監(jiān)督的方法常用的方法有以下幾種文檔頻率(Document Frequency,DF)單詞權(quán)(Term Strength,TS)信息增益(Information Gain,IG)互信息(Mutual Information,MI)期望交叉熵(Expected Cross Entropy,ECE),2024/2/29,基
9、于文檔頻率的方法,文檔頻率是指所有訓(xùn)練文本中出現(xiàn)某個(gè)特征詞的頻率是一種無(wú)監(jiān)督的方法通常會(huì)分別設(shè)置一個(gè)小的閾值和大的閾值來(lái)過(guò)濾一些低頻詞和頻數(shù)特別高的詞特點(diǎn)優(yōu)點(diǎn):簡(jiǎn)單、易行缺點(diǎn):低頻詞有時(shí)能很好反映類(lèi)別信息;忽略了特征詞在文檔中出現(xiàn)的次數(shù),2024/2/29,基于信息增益的方法,根據(jù)某個(gè)特征詞t在一篇文檔中出現(xiàn)或者不出現(xiàn)的次數(shù)來(lái)計(jì)算為分類(lèi)所能提供的信息量,并根據(jù)該信息量大小來(lái)衡量特征詞的重要程度,進(jìn)而決定特征詞的取舍信息增
10、益是最常用的文本特征選擇方法之一特點(diǎn):該方法只考察特征詞對(duì)整個(gè)分類(lèi)的區(qū)分能力,不能具體到某個(gè)類(lèi)別上,2024/2/29,,8.1.4 文本分類(lèi),文本自動(dòng)分類(lèi)(簡(jiǎn)稱(chēng)“文本分類(lèi)”)是在預(yù)定義的分類(lèi)體系下,根據(jù)文本的特征(詞條或短語(yǔ)),將給定文本分配到特定一個(gè)或多個(gè)類(lèi)別的過(guò)程基本步驟可以分為三步:將預(yù)先分過(guò)類(lèi)的文本作為訓(xùn)練集輸入構(gòu)建分類(lèi)模型對(duì)新輸入的文本進(jìn)行分類(lèi)常見(jiàn)的算法包括:線(xiàn)性分類(lèi)器、k最近鄰分類(lèi)器、樸素貝葉斯、決策樹(shù)、支持向
11、量機(jī)分類(lèi)器,2024/2/29,樸素貝葉斯分類(lèi)器,貝葉斯分類(lèi)算法有兩種模型:多變量伯努利事件模型和多項(xiàng)式事件模型多變量伯努利事件模型特征詞在文本中出現(xiàn)則權(quán)重為1,否則權(quán)重為0。不考慮特征詞的出現(xiàn)順序,忽略詞出現(xiàn)的次數(shù)多項(xiàng)式事件模型一篇文檔被看作是一系列有序排列的詞的集合,2024/2/29,,,,,,,常用基準(zhǔn)語(yǔ)料,Reuters-21578是最常用的公開(kāi)英文語(yǔ)料庫(kù)21578篇新聞報(bào)道135個(gè)類(lèi)別20 Newsgroup
12、s是重要的公開(kāi)英文語(yǔ)料庫(kù)大致20000篇新聞組文檔6個(gè)不同的主題以及20個(gè)不同類(lèi)別的新聞組TanCorp是公開(kāi)的中文基準(zhǔn)語(yǔ)料庫(kù)收集文本14150篇分為兩個(gè)層次。第一層12個(gè)類(lèi)別,第二層60個(gè)類(lèi)別,2024/2/29,常用基準(zhǔn)語(yǔ)料(續(xù)),復(fù)旦大學(xué)中文文本分類(lèi)語(yǔ)料庫(kù)測(cè)試語(yǔ)料共9833篇文檔,訓(xùn)練語(yǔ)料共9804篇文檔包含20個(gè)類(lèi)別其它語(yǔ)料庫(kù)還包括OHSUMED、WebKB、TREC系列和TDT系列等,2024/2/29,模型評(píng)
13、估,文本自動(dòng)分類(lèi)通常是不平衡的分類(lèi)任務(wù),常用的分類(lèi)準(zhǔn)確率(Accuracy)指標(biāo)并不合適一般使用每個(gè)類(lèi)的F-measure值以及全部類(lèi)F-measure值的平均來(lái)評(píng)估算法的性能其中,r表示每個(gè)類(lèi)的召回率(Recall),p表示每個(gè)類(lèi)的精度(Precision),通常β取值為1,也就是經(jīng)常被使用到的F1值,2024/2/29,,模型評(píng)估(續(xù)),語(yǔ)料上的整體性能,通常采用微平均和宏平均方法微平均是根據(jù)所有類(lèi)準(zhǔn)確劃分文本個(gè)數(shù)和錯(cuò)誤劃
14、分文本個(gè)數(shù)來(lái)計(jì)算精度和召回率宏平均則是計(jì)算每個(gè)類(lèi)別得到的精度和召回率的平均值在不平衡數(shù)據(jù)分類(lèi)上,宏平均方法更能反映出分類(lèi)器的性能。,2024/2/29,8.1.5 文本聚類(lèi),自動(dòng)化程度較高的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,不需要預(yù)先對(duì)文檔手工標(biāo)注類(lèi)別主要任務(wù)是把一個(gè)文本集分成若干個(gè)稱(chēng)為簇的子集,然后在給定的某種相似性度量下把各個(gè)文檔分配到與最其相似的簇中相似性度量方法在此過(guò)程起著至關(guān)重要的作用,2024/2/29,文本相似度計(jì)算,方法主要分
15、為兩大類(lèi):基于語(yǔ)料庫(kù)統(tǒng)計(jì)的方法和基于語(yǔ)義理解的方法基于語(yǔ)料庫(kù)統(tǒng)計(jì)的方法:基于漢明距離和基于空間向量模型的方法漢明距離用來(lái)描述兩個(gè)等長(zhǎng)碼字對(duì)應(yīng)位置的不同字符的個(gè)數(shù),從而計(jì)算出兩個(gè)碼字的相似度基于空間向量模型方法是一種簡(jiǎn)單有效的方法,2024/2/29,,,文本相似度計(jì)算(續(xù)),基于語(yǔ)義理解的方法:考慮語(yǔ)義信息的文本相似度計(jì)算方法該方法主要分為三大類(lèi):詞語(yǔ)相似度、句子相似度、段落相似度計(jì)算詞語(yǔ)相似度往往需要一部語(yǔ)義詞典作為支持,目
16、前使用頻率最高的語(yǔ)義詞典是《知網(wǎng)》句子相似度計(jì)算要通過(guò)利用語(yǔ)法結(jié)構(gòu)來(lái)分析漢語(yǔ)句子機(jī)構(gòu)相當(dāng)復(fù)雜,段落相似度計(jì)算更復(fù)雜,2024/2/29,文本聚類(lèi)過(guò)程,以K-means算法詳細(xì)介紹文本聚類(lèi)的過(guò)程任意選擇k個(gè)文本作為初始聚類(lèi)中心Repeat 計(jì)算輸入文本與簇之間的相似度,將文本分配到最相似的簇中 更新簇質(zhì)心向量Until 簇質(zhì)心不再發(fā)生變化,2024/2/29,評(píng)估指標(biāo),外部質(zhì)量準(zhǔn)則的聚類(lèi)熵、聚類(lèi)精度文本分類(lèi)方法的召回率
17、、精度、F-measure值文本聚類(lèi)算法整體性能的評(píng)估宏平均或微平均F-measure值聚類(lèi)熵,2024/2/29,8.1.6 文檔自動(dòng)摘要,文檔自動(dòng)摘要,簡(jiǎn)稱(chēng)自動(dòng)文摘,是指利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文處理過(guò)程大致可分為三個(gè)步驟:文本分析過(guò)程信息轉(zhuǎn)換過(guò)程重組源表示內(nèi)容,生成文摘并確保文摘的連貫性,2024/2/29,文檔自動(dòng)摘要的類(lèi)型,按不同標(biāo)準(zhǔn),文檔自動(dòng)摘要可分為不同類(lèi)型:
18、根據(jù)文摘的功能劃分,指示型文摘、報(bào)道型文摘和評(píng)論型文摘根據(jù)輸入文本的數(shù)量劃分,單文檔文摘和多文檔文摘根據(jù)原文語(yǔ)言種類(lèi)劃分,單語(yǔ)言文摘和跨語(yǔ)言文摘根據(jù)文摘和原文的關(guān)系劃分,摘錄型文摘和理解型文摘根據(jù)文摘的應(yīng)用劃分,普通型文摘和面向用戶(hù)查詢(xún)文摘,2024/2/29,相關(guān)技術(shù),文檔自動(dòng)摘要技術(shù)主要有以下幾種類(lèi)型自動(dòng)摘錄法最大邊緣相關(guān)自動(dòng)文摘法基于理解的自動(dòng)文摘基于信息抽取的自動(dòng)文摘基于結(jié)構(gòu)的自動(dòng)文摘基于LSI語(yǔ)句聚類(lèi)的自
19、動(dòng)文摘,2024/2/29,相關(guān)技術(shù)(續(xù)),自動(dòng)摘錄法將文本看成是句子的線(xiàn)性排列,將句子看成詞的線(xiàn)性排列,然后從文本中摘錄最重要的句子作為文摘句最大邊緣相關(guān)法從文本中挑選出與該文本最相關(guān)的,同時(shí)與已挑選出的所有代表句最不相關(guān)的句子作為下一個(gè)代表句基于理解的方法利用語(yǔ)言學(xué)知識(shí)獲取語(yǔ)言結(jié)構(gòu),更重要的是利用領(lǐng)域知識(shí)進(jìn)行判斷、推理,得到文摘的語(yǔ)義表示,從語(yǔ)義表示中生成摘要,2024/2/29,相關(guān)技術(shù)(續(xù)),基于信息抽取的方法首先根據(jù)領(lǐng)域知
20、識(shí)建立該領(lǐng)域的文摘框架,然后使用信息抽取方法先對(duì)文本進(jìn)行主題識(shí)別,再對(duì)文本中有用片段進(jìn)行有限深度的分析,最后利用文摘模板將文摘框架中內(nèi)容轉(zhuǎn)換為文摘輸出基于結(jié)構(gòu)的方法將文章視為句子的關(guān)聯(lián)網(wǎng)絡(luò),與很多句子都有聯(lián)系的中心句被確認(rèn)為文摘句,句子間的關(guān)系可通過(guò)詞間關(guān)系、連接詞等確定,2024/2/29,相關(guān)技術(shù)(續(xù)),基于LSI語(yǔ)句聚類(lèi)的方法利用潛在語(yǔ)義索引LSI(Latent Semantic Indexing),獲得特征項(xiàng)和文本的語(yǔ)義結(jié)構(gòu)表
21、示。在語(yǔ)義空間考慮特征項(xiàng)權(quán)重不是依賴(lài)于單純的詞頻信息,而是考慮到特征項(xiàng)對(duì)于文本主題的表現(xiàn)能力以及在整個(gè)文本集中使用的模式。,2024/2/29,相關(guān)技術(shù)(續(xù)),以上方法普遍會(huì)面臨以下三個(gè)關(guān)鍵問(wèn)題的挑戰(zhàn)文檔冗余信息的識(shí)別和處理重要信息的辨認(rèn)生成文摘的連貫性,2024/2/29,性能評(píng)估,自動(dòng)文摘包含標(biāo)準(zhǔn)文摘的信息比率是內(nèi)部測(cè)評(píng)中對(duì)文摘內(nèi)容完整性的一種重要測(cè)評(píng)幾個(gè)主流的評(píng)價(jià)方法:?jiǎn)挝臋n文摘評(píng)價(jià)系統(tǒng)(Summary Evaluati
22、on Environment)ROUGEPyramidBE(Basic Elements)方法,2024/2/29,8.2 Web數(shù)據(jù)挖掘,8.2.1 Web內(nèi)容挖掘8.2.2 Web使用挖掘8.2.3 Web結(jié)構(gòu)挖掘,2024/2/29,8.2.1 Web內(nèi)容挖掘,Web內(nèi)容挖掘是從Web頁(yè)面的文本、圖像、視頻和組成頁(yè)面的其它內(nèi)容中提取信息的過(guò)程Web內(nèi)容挖掘在Web搜索、垃圾郵件過(guò)濾、敏感信息過(guò)濾、情報(bào)分析、數(shù)字圖書(shū)館建
23、設(shè)、網(wǎng)絡(luò)輿情監(jiān)控等方面有著重要的應(yīng)用價(jià)值文本挖掘技術(shù)可應(yīng)用于Web頁(yè)面的文本挖掘中圖像和視頻等內(nèi)容的挖掘是多媒體數(shù)據(jù)挖掘中的重要部分主要方法也是數(shù)據(jù)預(yù)處理、分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則,2024/2/29,8.2.2 Web使用挖掘,Web使用挖掘通過(guò)挖掘Web日志記錄,發(fā)現(xiàn)用戶(hù)訪問(wèn)Web頁(yè)面的模式可以識(shí)別電子商務(wù)的潛在客戶(hù)增強(qiáng)對(duì)最終用戶(hù)的因特網(wǎng)信息服務(wù)的質(zhì)量和交互改進(jìn)Web服務(wù)器系統(tǒng)性能,2024/2/29,數(shù)據(jù)收集,Web使用記
24、錄挖掘中的主要數(shù)據(jù)來(lái)源是服務(wù)器日志文件,主要可分為以下四種類(lèi)型數(shù)據(jù)使用記錄數(shù)據(jù):首要的數(shù)據(jù)來(lái)源內(nèi)容數(shù)據(jù):由文字材料和圖片組成結(jié)構(gòu)數(shù)據(jù):從設(shè)計(jì)者的角度所看到的網(wǎng)站內(nèi)容組織結(jié)構(gòu)用戶(hù)數(shù)據(jù):包括注冊(cè)用戶(hù)人口統(tǒng)計(jì)信息(如性別、年齡、職業(yè)等)、用戶(hù)對(duì)各種對(duì)象的訪問(wèn)率、用戶(hù)的購(gòu)買(mǎi)記錄或歷史訪問(wèn)記錄等,2024/2/29,預(yù)處理,2024/2/29,,Web使用模式的發(fā)現(xiàn)和分析,會(huì)話(huà)及訪問(wèn)者分析在已預(yù)處理的會(huì)話(huà)數(shù)據(jù)中,發(fā)現(xiàn)訪問(wèn)者行為的知識(shí)使
25、用記錄聚類(lèi)分析用戶(hù)聚類(lèi):用戶(hù)聚類(lèi)的目的是對(duì)具有相同瀏覽模式的用戶(hù)進(jìn)行分組頁(yè)面聚類(lèi):在基于使用記錄數(shù)據(jù)的聚類(lèi)中,被經(jīng)常訪問(wèn)的項(xiàng)目或購(gòu)買(mǎi)記錄可能被自動(dòng)組織成一個(gè)個(gè)分組,2024/2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),關(guān)聯(lián)規(guī)則及相關(guān)度分析可以找到普遍在一起被訪問(wèn)或被購(gòu)買(mǎi)的頁(yè)面或項(xiàng)目的分組可以用在Web個(gè)性化推薦系統(tǒng)中在電子商務(wù)的推薦系統(tǒng)中使用關(guān)聯(lián)規(guī)則,目標(biāo)用戶(hù)的偏好是符合每個(gè)規(guī)則前項(xiàng)X中的項(xiàng)目,而在右側(cè)的項(xiàng)目所符合的規(guī)則按照置
26、信度排序,這個(gè)列表中排名靠前的N個(gè)項(xiàng)目便可考慮推薦給目標(biāo)用戶(hù)問(wèn)題:若數(shù)據(jù)集稀疏,則無(wú)法給出任何推薦解決方案:協(xié)同過(guò)濾,2024/2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),導(dǎo)航模式分析要發(fā)現(xiàn)或分析用戶(hù)導(dǎo)航模式,一種方法是將網(wǎng)站中導(dǎo)航活動(dòng)建模成Markov模型Markov模型:每個(gè)頁(yè)面訪問(wèn)可以被表示成一個(gè)狀態(tài),兩個(gè)狀態(tài)間的轉(zhuǎn)換概率可以表示用戶(hù)從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的可能性。這種表示方式允許計(jì)算一些有用的用戶(hù)或網(wǎng)站的度量,2024/
27、2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),基于Web用戶(hù)事務(wù)的分類(lèi)和預(yù)測(cè)在Web使用實(shí)例中,基于用戶(hù)人口統(tǒng)計(jì)信息以及他們的購(gòu)買(mǎi)活動(dòng),分類(lèi)技術(shù)可以將用戶(hù)分成高購(gòu)買(mǎi)傾向和非高購(gòu)買(mǎi)傾向兩類(lèi)協(xié)同過(guò)濾是Web領(lǐng)域分類(lèi)和預(yù)測(cè)中的一個(gè)重要應(yīng)用k近鄰分類(lèi)器(kNN)是一種簡(jiǎn)單有效的協(xié)同過(guò)濾方法,通過(guò)計(jì)算當(dāng)前用戶(hù)模型和以往用戶(hù)模型的相關(guān)度,預(yù)測(cè)用戶(hù)訪問(wèn)率或購(gòu)買(mǎi)傾向,以找到數(shù)據(jù)庫(kù)中有著相似特性和偏好的用戶(hù),2024/2/29,8.2.3 Web結(jié)構(gòu)
28、挖掘,Web結(jié)構(gòu)挖掘就是指通過(guò)分析不同網(wǎng)頁(yè)之間的超鏈接結(jié)構(gòu),網(wǎng)頁(yè)內(nèi)部用HTML、XML表示的樹(shù)形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等,發(fā)現(xiàn)許多蘊(yùn)含在網(wǎng)絡(luò)內(nèi)容之外的對(duì)我們有潛在價(jià)值的模式和知識(shí)的過(guò)程Web頁(yè)之間的超鏈接結(jié)構(gòu)中包含了許多有用的信息。當(dāng)網(wǎng)頁(yè)A到網(wǎng)頁(yè)B存在一個(gè)超鏈接時(shí),則說(shuō)明網(wǎng)頁(yè)A的作者認(rèn)為網(wǎng)頁(yè)B的內(nèi)容非常重要,且兩個(gè)網(wǎng)頁(yè)的內(nèi)容具有相似的主題,2024/2/29,PageRank算法,目前對(duì)Web結(jié)構(gòu)進(jìn)行分析的主要方法是將W
29、eb看作有向圖,然后根據(jù)一定的啟發(fā)規(guī)則,用圖論的方法對(duì)其進(jìn)行分析PageRank 算法是超鏈接結(jié)構(gòu)分析中最成功的代表之一搜索引擎Google就是通過(guò)利用該算法和anchor text標(biāo)記、詞頻統(tǒng)計(jì)等因素相結(jié)合的方法,對(duì)檢索出的大量結(jié)果進(jìn)行相關(guān)度排序,將最權(quán)威的網(wǎng)頁(yè)盡量排在前面,2024/2/29,PageRank算法(續(xù)),PageRank算法假設(shè)從一個(gè)網(wǎng)頁(yè)指向另一個(gè)網(wǎng)頁(yè)的超鏈接是一種對(duì)目標(biāo)網(wǎng)站權(quán)威的隱含認(rèn)可,因此,一個(gè)頁(yè)面的入度
30、越大則它的權(quán)威就越高另一方面,指向網(wǎng)頁(yè)自身也有權(quán)威值,一個(gè)擁有高權(quán)威值網(wǎng)頁(yè)指向的網(wǎng)頁(yè)比一個(gè)擁有低權(quán)威值網(wǎng)頁(yè)指向的網(wǎng)頁(yè)更加重要,如果一個(gè)網(wǎng)頁(yè)被其它重要網(wǎng)頁(yè)所指向,那么該網(wǎng)頁(yè)也很重要,2024/2/29,HITS算法,Web的鏈接具有以下特征有些鏈接具有注釋性,也有些鏈接是起導(dǎo)航或廣告作用。有注釋性的鏈接才用于權(quán)威判斷基于商業(yè)或競(jìng)爭(zhēng)因素考慮,很少有Web網(wǎng)頁(yè)指向其競(jìng)爭(zhēng)領(lǐng)域的權(quán)威網(wǎng)頁(yè)權(quán)威網(wǎng)頁(yè)很少具有明顯的描述,例如Google主頁(yè)不會(huì)
31、明確給出Web搜索引擎之類(lèi)的描述信息Page Rank算法中對(duì)于向外鏈接的權(quán)值貢獻(xiàn)是平均的,但根據(jù)以上Web的鏈接特征可看出平均地分布權(quán)值不符合鏈接的實(shí)際情況,2024/2/29,HITS算法(續(xù)),康奈爾大學(xué)博士J. Kleinberg提出的HITS (Hypertext Induced Topic Search)算法在算法中引入了另外一種網(wǎng)頁(yè),稱(chēng)為Hub網(wǎng)頁(yè)Hub網(wǎng)頁(yè)是提供指向權(quán)威網(wǎng)頁(yè)(Authority)鏈接集合的Web網(wǎng)頁(yè)
32、,它本身可能并不重要,但是Hub網(wǎng)頁(yè)卻提供了指向就某個(gè)主題而言最為重要的站點(diǎn)的鏈接集合Kleinberg認(rèn)為網(wǎng)頁(yè)的重要性應(yīng)該依賴(lài)于用戶(hù)提出的檢索主題,而且對(duì)每一個(gè)網(wǎng)頁(yè)應(yīng)該將其Authority權(quán)重和Hub權(quán)重分開(kāi)來(lái)考慮,2024/2/29,HITS算法(續(xù)),根據(jù)頁(yè)面之間的超鏈接結(jié)構(gòu),將頁(yè)面分為Authority頁(yè)和Hub頁(yè)一般來(lái)說(shuō),好的Hub網(wǎng)頁(yè)指向許多好的Authority網(wǎng)頁(yè),好的Authority網(wǎng)頁(yè)是由許多好的Hub網(wǎng)頁(yè)指
33、向的Web網(wǎng)頁(yè)。這種Hub與Authority網(wǎng)頁(yè)之間的相互加強(qiáng)關(guān)系,可用于Authority網(wǎng)頁(yè)的發(fā)現(xiàn)和Web結(jié)構(gòu)和資源的自動(dòng)發(fā)現(xiàn),這就是HITS算法的基本思想,2024/2/29,HITS算法(續(xù)),HITS算法如下將查詢(xún)q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎從搜索引擎返回的網(wǎng)頁(yè)中取前n(在介紹的HITS論文中采用n=200)個(gè)網(wǎng)頁(yè)作為根集(root set),用S表示通過(guò)向S中加入被S引用的網(wǎng)頁(yè)和引用S的網(wǎng)頁(yè)將S擴(kuò)展成基集T
34、接著算法對(duì)基集T內(nèi)部的每個(gè)網(wǎng)頁(yè)進(jìn)行處理,計(jì)算T中每個(gè)網(wǎng)頁(yè)的Authority值和Hub值迭代計(jì)算并輸出一組具有較大Hub值的頁(yè)面和具有較大Authority值的頁(yè)面,2024/2/29,PageRank與HITS算法的對(duì)比,處理對(duì)象和算法效率不同PageRank算法可以離線(xiàn)計(jì)算每個(gè)網(wǎng)頁(yè)的PageRank值,能對(duì)用戶(hù)查詢(xún)產(chǎn)生快速的響應(yīng)HITS算法由根集S生成基集T的時(shí)間開(kāi)銷(xiāo)很昂貴,實(shí)時(shí)性較差傳播模型不同PageRank算法是基
35、于隨機(jī)游走類(lèi)型的HITS算法將網(wǎng)頁(yè)分為Authority網(wǎng)頁(yè)和Hub網(wǎng)頁(yè),Authority網(wǎng)頁(yè)和Hub網(wǎng)頁(yè)交互傳播,相互加強(qiáng),2024/2/29,PageRank與HITS算法的對(duì)比(續(xù)),反網(wǎng)頁(yè)作弊能力不同PageRank算法能較好地防止網(wǎng)頁(yè)作弊的發(fā)生HITS算法則沒(méi)有這樣好的反作弊能力,因?yàn)榫W(wǎng)頁(yè)擁有者可以很容易地在自己的網(wǎng)頁(yè)上添加大量指向權(quán)威網(wǎng)頁(yè)的鏈接,進(jìn)而影響HITS算法得到的Authority值和Hub值“主題漂移”問(wèn)
36、題HITS算法存在“主題漂移”問(wèn)題PageRank則較好地克服了“主題漂移”問(wèn)題,2024/2/29,8.3 跨語(yǔ)言智能學(xué)術(shù)搜索系統(tǒng),8.3.1 混合語(yǔ)種文本分詞8.3.2 基于機(jī)器翻譯的跨語(yǔ)言信息檢索8.3.3 不同語(yǔ)種文本的搜索結(jié)果聚類(lèi)8.3.4 基于聚類(lèi)的個(gè)性化信息檢索8.3.5 基于聚類(lèi)的查詢(xún)擴(kuò)展8.3.6 其它檢索便利工具8.3.7 系統(tǒng)性能評(píng)估,2024/2/29,8.3.1 混合語(yǔ)種文本分詞,漢語(yǔ)詞法分析系
37、統(tǒng)ICTCLAS中文分詞;詞性標(biāo)注;關(guān)鍵詞提??;命名實(shí)體識(shí)別;未登錄詞識(shí)別分詞正確率高達(dá)97.58%(973專(zhuān)家組評(píng)測(cè));未登錄詞識(shí)別召回率均高于90%,其中中國(guó)人名的識(shí)別召回率接近98%;處理速度為31.5Kbytes/sLucene高性能文本分析器,可根據(jù)單詞間的空格進(jìn)行分詞大小寫(xiě)轉(zhuǎn)換、不規(guī)則符號(hào)過(guò)濾、停用詞過(guò)濾(Stop words filtering)、詞干提取(Stemming),2024/2/29,,整合ICTCL
38、AS和Lucene混合語(yǔ)種分詞策略:輸入一個(gè)文本; 采用ICTCLAS對(duì)所輸入文本進(jìn)行中文分詞以及詞性標(biāo)注處理;提取標(biāo)注為“x”詞性字符串,采用Lucene標(biāo)準(zhǔn)分析器(StandardAnalyzer)進(jìn)行第二趟分詞,對(duì)輸入字符串進(jìn)行大小寫(xiě)轉(zhuǎn)換、不規(guī)則符號(hào)過(guò)濾、停用詞過(guò)濾、詞干提??;文本是否已經(jīng)處理完,如果否則轉(zhuǎn)(1);結(jié)束。,2024/2/29,8.3.2 基于機(jī)器翻譯的跨語(yǔ)言信息檢索,基于統(tǒng)計(jì)的機(jī)器翻譯方法已經(jīng)具備用戶(hù)可接
39、受的準(zhǔn)確率Google翻譯是基于統(tǒng)計(jì)方法的機(jī)器翻譯研究結(jié)合Google翻譯和元搜索技術(shù)實(shí)現(xiàn)基于機(jī)器翻譯的跨語(yǔ)言學(xué)術(shù)檢索,2024/2/29,,實(shí)現(xiàn)流程:用戶(hù)輸入查詢(xún)?cè)~并選擇目標(biāo)語(yǔ)言;若目標(biāo)語(yǔ)言與源語(yǔ)言(查詢(xún)?cè)~所屬語(yǔ)言)相同則轉(zhuǎn)(3),否則將查詢(xún)?cè)~翻譯成目標(biāo)語(yǔ)言,作為新的查詢(xún)?cè)~;將查詢(xún)?cè)~提交到搜索源;返回搜索結(jié)果。,2024/2/29,8.3.3 不同語(yǔ)種文本的搜索結(jié)果聚類(lèi),對(duì)不同語(yǔ)種文本采用不同的聚類(lèi)算法:使用Lingo搜
40、索結(jié)果聚類(lèi)算法對(duì)西語(yǔ)文本進(jìn)行聚類(lèi)處理采用一趟聚類(lèi)算法對(duì)中文搜索返回結(jié)果進(jìn)行增量多層聚類(lèi),2024/2/29,8.3.4 基于聚類(lèi)的個(gè)性化信息檢索,個(gè)性化信息檢索主要是通過(guò)用戶(hù)興趣模型對(duì)搜索返回結(jié)果進(jìn)行個(gè)性化重排序和個(gè)性化過(guò)濾返回結(jié)果等方式實(shí)現(xiàn)介紹方法的流程:觀察用戶(hù)對(duì)聚類(lèi)結(jié)果的點(diǎn)擊行為,實(shí)時(shí)提取用戶(hù)的興趣偏好生成并更新用戶(hù)實(shí)時(shí)興趣模型采用余弦?jiàn)A角公式計(jì)算興趣模型與搜索結(jié)果相似度按照相似度從大到小對(duì)其進(jìn)行重排序,以實(shí)現(xiàn)個(gè)性化的
41、檢索需求,2024/2/29,8.3.5 基于聚類(lèi)的查詢(xún)擴(kuò)展,通過(guò)查詢(xún)擴(kuò)展技術(shù),搜索引擎系統(tǒng)能較好地理解用戶(hù)的查詢(xún)意圖采用基于局部分析的聚類(lèi)分析方法選取可讀性強(qiáng)的聚類(lèi)結(jié)果類(lèi)標(biāo)簽作為擴(kuò)展詞提供交互式的擴(kuò)展詞選擇方式,2024/2/29,8.3.6 其它檢索便利工具,面向文獻(xiàn)來(lái)源網(wǎng)站(URL)的層次歸類(lèi)方法“.com”、“.cn”“.edu.cn”“gdufs.edu.cn”基于文獻(xiàn)發(fā)表期刊或者會(huì)議的歸類(lèi)方法引用文獻(xiàn)聚類(lèi)功能
42、按相似度排序、按時(shí)間排序、按被引用次數(shù)排序,2024/2/29,8.3.7 系統(tǒng)性能評(píng)估,系統(tǒng)的分詞速度為111 kb/sMT CLIR(Machine Translation CLIR)的短查詢(xún)?cè)~、中查詢(xún)?cè)~和長(zhǎng)查詢(xún)平均準(zhǔn)確率分別為0.4446、0.5536和0.617MCIBC和Lingo的微平均F-Measure值分別達(dá)到了0.4917和0.5178個(gè)性化排序方法得到了較高的P@5、P@10和P@20值(均高于0.5),20
43、24/2/29,部分系統(tǒng)截圖,2024/2/29,2024/2/29,,2024/2/29,2024/2/29,,2024/2/29,,8.4 基于內(nèi)容的垃圾郵件識(shí)別,8.4.1 垃圾郵件識(shí)別方法簡(jiǎn)介8.4.2 基于內(nèi)容的垃圾郵件識(shí)別方法工作原理8.4.3 一種基于聚類(lèi)的垃圾郵件識(shí)別方法,2024/2/29,8.4.1 垃圾郵件識(shí)別方法簡(jiǎn)介,主流的垃圾郵件識(shí)別技術(shù)可分為郵件服務(wù)器端防范技術(shù)和郵件客戶(hù)端防范技術(shù)兩大類(lèi)郵件服務(wù)器端防范
44、技術(shù):基于IP地址、域名和 “(黑)白名單”過(guò)濾技術(shù);基于信頭、信體、附件的內(nèi)容過(guò)濾技術(shù);基于連接頻率的動(dòng)態(tài)規(guī)則技術(shù);郵件客戶(hù)端防范技術(shù):充分利用黑名單,白名單功能;慎用“自動(dòng)回復(fù)”功能;盡量避免泄露郵件地址;,2024/2/29,基于內(nèi)容的垃圾郵件識(shí)別技術(shù),基于內(nèi)容的垃圾郵件識(shí)別技術(shù)是郵件服務(wù)器端防范技術(shù)的主流技術(shù),以上提到的基于信頭、信體、附件的內(nèi)容過(guò)濾技術(shù)是典型的基于內(nèi)容的方法這類(lèi)型方法的典型代表有Bayes方法、k
45、NN、支持向量機(jī)SVM、Rocchio、神經(jīng)網(wǎng)絡(luò)等,2024/2/29,8.4.2 基于內(nèi)容的垃圾郵件識(shí)別方法工作原理,一封標(biāo)準(zhǔn)格式的電子郵件包含有郵件頭部(mail head)和郵件體(mail body)兩部分郵件頭部包括發(fā)件人,收件人,抄送人,發(fā)信日期,主題,附件等信息郵件體包括郵件正文信息實(shí)例圖如下:,2024/2/29,2024/2/29,垃圾郵件過(guò)濾的基礎(chǔ),在不考慮附件、圖片化文字等問(wèn)題,只簡(jiǎn)單考慮郵件中包含的文本內(nèi)容
46、情況下,這類(lèi)垃圾郵件大概占總垃圾郵件數(shù)量的80%垃圾郵件過(guò)濾的基礎(chǔ)是識(shí)別出所接收到郵件是正常郵件還是垃圾郵件,而這個(gè)識(shí)別過(guò)程可以看作是一種二類(lèi)的文本分類(lèi)問(wèn)題,即正常郵件和垃圾郵件兩個(gè)類(lèi)別文本的識(shí)別,2024/2/29,識(shí)別方法的主要步驟,基于內(nèi)容的垃圾郵件識(shí)別方法的主要步驟:將解碼并格式化后的電子郵件視為文本;分詞并使用相應(yīng)的文本表示方法來(lái)表示文本,較多的方法采用向量空間模型 VSM;基于已有的垃圾郵件和正常郵件語(yǔ)料庫(kù),采用文本
47、分類(lèi)算法建立垃圾郵件識(shí)別模型;基于識(shí)別模型判別新收到的郵件是否為垃圾郵件,2024/2/29,8.4.3 一種基于聚類(lèi)的垃圾郵件識(shí)別方法,介紹的方法首先采用聚類(lèi)算法學(xué)習(xí)訓(xùn)練語(yǔ)料,并建立識(shí)別模型,然后再結(jié)合kNN分類(lèi)方法思想對(duì)測(cè)試語(yǔ)料決策分類(lèi),具有很好的識(shí)別準(zhǔn)確度以及效率并可以通過(guò)聚類(lèi)算法增量更新模型,2024/2/29,建立識(shí)別模型,利用一趟聚類(lèi)算法建立識(shí)別模型,過(guò)程如下:初始時(shí), 簇集合為空,讀入一個(gè)新的文本;以這個(gè)對(duì)象構(gòu)造一
48、個(gè)新的簇,該文本的類(lèi)別標(biāo)識(shí)作為新簇的類(lèi)別標(biāo)識(shí);若文本已被處理完,則轉(zhuǎn)(6),否則讀入新對(duì)象, 計(jì)算并選擇最大的相似度的簇;若最大相似度小于給定半徑閾值r,轉(zhuǎn)(2);否則將該文本并入具有最大相似度的簇,轉(zhuǎn)(3);采用投票機(jī)制對(duì)聚類(lèi)得到的簇進(jìn)行標(biāo)識(shí);得到聚類(lèi)結(jié)果(識(shí)別模型),建模階段結(jié)束。,2024/2/29,決策分類(lèi),結(jié)合kNN分類(lèi)方法思想,利用識(shí)別模型對(duì)測(cè)試語(yǔ)料進(jìn)行分類(lèi)處理:給定一個(gè)測(cè)試文本x,使用公式(1)計(jì)算模型m0的每
49、個(gè)簇的打分,即(1)(2)找出k1(first_k_value)個(gè)最近鄰的簇,并在這些簇中查找k2(second_k_value)個(gè)最近鄰的文本基于得到的k2最近鄰文本集,使用公式(2)給其打分,并將x判定為得分最高的類(lèi)別,2024/2/29,,,模型更新,對(duì)于新添加的訓(xùn)練語(yǔ)料,采用建立模型一樣的方法對(duì)新添加的訓(xùn)練文本進(jìn)行增量式聚類(lèi),更新聚類(lèi)結(jié)果,以得到新的識(shí)別模型,2024/2/29,部分算法性能測(cè)試結(jié)果,2024/2/29,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Web文本數(shù)據(jù)挖掘研究.pdf
- 數(shù)據(jù)挖掘中的文本挖掘
- WEB文本挖掘系統(tǒng).pdf
- web文本挖掘研究與實(shí)現(xiàn).pdf
- web數(shù)據(jù)挖掘中的文本分類(lèi)研究
- 基于XML的Web文本數(shù)據(jù)挖掘研究.pdf
- Web數(shù)據(jù)挖掘中的文本分類(lèi)研究.pdf
- Web文本挖掘的研究與應(yīng)用.pdf
- 基于WEB的數(shù)據(jù)挖掘技術(shù)——WEB內(nèi)容挖掘的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于數(shù)據(jù)挖掘的Web文本分析研究.pdf
- 基于文本的數(shù)據(jù)挖掘
- WEB數(shù)據(jù)挖掘研究.pdf
- web數(shù)據(jù)挖掘現(xiàn)狀分析
- WEB文本挖掘的聚類(lèi)分析.pdf
- web中文文本的數(shù)據(jù)挖掘技術(shù)研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘的研究.pdf
- 基于Web的文本挖掘研究.pdf
- 基于Web文本挖掘的研究.pdf
- Web數(shù)據(jù)挖掘的應(yīng)用與研究.pdf
- Web數(shù)據(jù)挖掘算法研究.pdf
評(píng)論
0/150
提交評(píng)論