面向詞典編撰的詞匯聚類研究_第1頁(yè)
已閱讀1頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1分類詞典編撰的領(lǐng)域詞語(yǔ)聚類實(shí)現(xiàn)分類詞典編撰的領(lǐng)域詞語(yǔ)聚類實(shí)現(xiàn)劉華1中文提要:中文提要:針對(duì)分類詞典中學(xué)科詞條的獲取和選擇問(wèn)題,我們利用文本分類和聚類中特征提取的方法進(jìn)行詞語(yǔ)聚類,從而達(dá)到輔助詞典編撰的目的。關(guān)鍵詞:關(guān)鍵詞:分類詞典文本分類特征提取詞語(yǔ)聚類StudiesonWdsClusteringinlexicographyLiuHua1,2ZhouLingYan1ZhangPu21(CollegeofChineseLanguageC

2、ultureofJinanUniversity,Guangzhou,510000)2(BeijingLanguageUniversity,Beijing,100000)Email:liuhua0461@Abstract:FobtainingingsubjectlemmaauxiliarytobuildingclassifieddictionarythispaperpresentsanalgithmthatclustersfieldWds

3、inlargescaleclassedcpusbyacterextractionintextclassing.Keywds:LexicographyTextClassingacterExtractionWdsClustering詞典或詞庫(kù)建設(shè)是一項(xiàng)重要的基礎(chǔ)性工程,詞典編撰工作量巨大、枯燥繁瑣。在信息化高度發(fā)展的今天,如何利用高科技手段輔助詞典編撰已成為一項(xiàng)非常有意義的課題。針對(duì)分類詞典編撰中學(xué)科詞條(每一條目的條頭,可能是詞或短語(yǔ),本

4、文通稱為詞條,下同)的獲取和選擇問(wèn)題,我們利用文本分類和聚類中特征提取的方法進(jìn)行詞語(yǔ)聚類,從而達(dá)到輔助詞典編撰的目的。1.1.分類詞典編撰的兩個(gè)關(guān)鍵問(wèn)題分類詞典編撰的兩個(gè)關(guān)鍵問(wèn)題現(xiàn)代詞典按其收錄內(nèi)容和用途可分為:語(yǔ)文詞典、綜合性詞典和專科性詞典。其中,綜合性詞典和??菩栽~典常常以學(xué)科(或題材)為綱來(lái)進(jìn)行組織編排[1]。綜合性詞典收錄內(nèi)容廣泛,涉及各個(gè)領(lǐng)域,便于查找最基本的知識(shí)和資料,往往只選擇重要的或查檢率較高的詞目收錄,而在涉及各學(xué)科

5、體系的深度和收詞的平衡及完整性方面有它薄弱的一面。這樣在查檢某一學(xué)科、專業(yè)的知識(shí)時(shí)則主要利用??圃~典。人類很早就有將詞匯按題材分類編纂的傳統(tǒng),距今2000多年前編纂的《爾雅》是最早的分類詞典雛形。近現(xiàn)代,分類詞典的出版空前繁榮,出現(xiàn)了很多??圃~典,基本上涵蓋了各學(xué)科。按學(xué)科(或題材)編撰詞典的兩個(gè)關(guān)鍵問(wèn)題在于學(xué)科詞條的獲取和選擇。1.2.11.2.1學(xué)科詞條的獲取學(xué)科詞條的獲取以往的詞條通常是由學(xué)科領(lǐng)域的專家利用其學(xué)科經(jīng)驗(yàn)來(lái)提供,這一方

6、面保證了學(xué)科詞條的準(zhǔn)確性,但另一方面又帶來(lái)了一些問(wèn)題。如個(gè)人主觀性太大,難以保證詞條的一致性,特別是對(duì)于那些新出現(xiàn)的沒(méi)有定論的學(xué)科術(shù)語(yǔ)更是如此;個(gè)人或幾個(gè)人的力量畢竟有限,很難保證詞條的學(xué)科涵蓋性,特別是在編撰綜合性詞典時(shí),如何調(diào)動(dòng)大規(guī)模的領(lǐng)域?qū)<覅f(xié)同工作,更是一個(gè)大問(wèn)題;信息化時(shí)代的到來(lái),特別是網(wǎng)絡(luò)的發(fā)展,使得知識(shí)更新非常快,單純依靠專家的1劉華,男,02級(jí)博士生,研究方向:計(jì)算語(yǔ)言學(xué),智能檢索,email:liuha0461@3中出

7、現(xiàn)的頻度越高,在其它文檔集(如“經(jīng)濟(jì)”、“軍事”……,我們稱之為背景語(yǔ)料,作對(duì)比用的)中出現(xiàn)的頻度越低,說(shuō)明它在區(qū)分該文檔集的內(nèi)容屬性(“體育”類)方面的能力越強(qiáng)。因此,領(lǐng)域特征詞語(yǔ)的提取實(shí)際上是通過(guò)計(jì)算詞語(yǔ)在不同領(lǐng)域語(yǔ)料中的分布情況來(lái)實(shí)現(xiàn)的。根據(jù)此原理,我們可以通過(guò)計(jì)算詞語(yǔ)的TFIDF值來(lái)進(jìn)行詞語(yǔ)的領(lǐng)域(話題)聚類。2.32.3特征領(lǐng)域聚類實(shí)現(xiàn)特征領(lǐng)域聚類實(shí)現(xiàn)我們依照上面的方法流程進(jìn)行了特征抽取和領(lǐng)域聚類。訓(xùn)練用的分類語(yǔ)料庫(kù)約60萬(wàn)個(gè)

8、XML文件,6億字,時(shí)間跨度為三年(02、03、04),文件標(biāo)注了語(yǔ)料的標(biāo)題、關(guān)鍵詞、類別(詳細(xì)標(biāo)明到細(xì)致的主題,如“經(jīng)濟(jì)證券債券”,共244個(gè))、時(shí)間、段落等屬性。具體領(lǐng)域(只列舉了大類)和文件數(shù)分布如下:類別文件數(shù)類別文件數(shù)時(shí)政新聞_國(guó)際59130旅游18471時(shí)政新聞_國(guó)內(nèi)119695文藝14248時(shí)政新聞_軍事21743游戲22843時(shí)政新聞_社會(huì)42559汽車21745經(jīng)濟(jì)40115教育24405科技53126房產(chǎn)19573體

9、育96120生活男女19382娛樂(lè)23905總計(jì)597060具體步驟如下:Step1:雙向最大切分。切分底表對(duì)特征提取至關(guān)重要,如果需要提取的特征詞不在底表中,則無(wú)法提取出該特征詞,我們的底表包含三十二萬(wàn)詞條,含領(lǐng)域詞語(yǔ)二十五萬(wàn)。Step2:統(tǒng)計(jì)詞次。統(tǒng)計(jì)時(shí)根據(jù)位置加權(quán),加權(quán)時(shí)文本長(zhǎng)度會(huì)對(duì)加權(quán)因子產(chǎn)生影響。對(duì)關(guān)鍵詞、標(biāo)題加權(quán)時(shí),應(yīng)該動(dòng)態(tài)加權(quán),即按文章正文詞數(shù)動(dòng)態(tài)調(diào)整加權(quán)系數(shù)。標(biāo)題加權(quán)底數(shù)為2,關(guān)鍵詞加權(quán)底數(shù)為3,正文詞數(shù)按200字分級(jí),

10、每增加一級(jí),在原來(lái)系數(shù)上相應(yīng)加1。Step3:權(quán)重計(jì)算。按照2、2節(jié)中的公式計(jì)算每個(gè)詞在類中的權(quán)重,n(n=1)參數(shù)主要用來(lái)調(diào)節(jié)詞頻的影響,當(dāng)n取值小時(shí),傾向于詞頻大的詞;當(dāng)n取值大時(shí),則詞頻的影響減弱,傾向于詞頻小的詞。Step4:特征選擇。通過(guò)設(shè)定閾值來(lái)確定不同文檔類所對(duì)應(yīng)的特征向量[4]。3.3.領(lǐng)域聚類結(jié)果分析領(lǐng)域聚類結(jié)果分析上文(第1節(jié))列舉了分類詞典編撰中兩個(gè)關(guān)鍵性的問(wèn)題,其中第一個(gè)問(wèn)題實(shí)際上是個(gè)分類問(wèn)題,即將詞語(yǔ)歸入到其所

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論