2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩20頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,漢語(yǔ)分詞:最大匹配方法,張?jiān)拢ɡ钫A指導(dǎo))2015.9.15,,中文分詞的目的是將漢字序列切分為詞序列舉例說明:輸入句子:他是研究生物化學(xué)的??赡艿姆衷~:他 是 研究生 物化 學(xué) 的 。 他 是 研究生 物 化學(xué) 的 。 他 是 研究 生物 化學(xué) 的 。合理答案:他 是 研究 生物 化學(xué) 的 。,分詞任務(wù),從左到右尋找詞的最大匹配(

2、每次都貪心的找一個(gè)最長(zhǎng)的詞典詞)我們有一個(gè)詞典,用于存放所有可能的詞語(yǔ),即除了單字,分詞結(jié)果中的每個(gè)詞均要在詞典中出現(xiàn)。,正向最大匹配算法,從左到右尋找詞的最大匹配從當(dāng)前位置開始,向右截取最大長(zhǎng)度,組成當(dāng)前詞;和字典中的詞逐一進(jìn)行匹配;若匹配成功,則進(jìn)行下次匹配,下次匹配的當(dāng)前位置則為這次詞后面的那個(gè)字。如果未能匹配,就縮短長(zhǎng)度(長(zhǎng)度減一)重新截取,直到當(dāng)前詞與詞典中的詞匹配或者當(dāng)前詞是單字;,正向最大匹配算法,

3、從左到右尋找詞的最大匹配,正向最大匹配算法,例子:我是中國(guó)人 詞典中包括【中國(guó)、中國(guó)人】假設(shè):最大詞長(zhǎng)為3,正向最大匹配算法,例子:我是中國(guó)人 第一輪:第一次:"我是中"是選取的詞,在詞典中 未找到匹配項(xiàng) 第二次:"我是"是選取的詞,在詞典中未 找到匹配項(xiàng) 第三次:"我"是選取的詞,是單字,匹配 成功,正向最大

4、匹配算法,例子:我/是中國(guó)人 第二輪:第一次:"是中國(guó)"是選取的詞,在詞典中 未找到匹配項(xiàng) 第二次:"是中"是選取的詞,在詞典中未 找到匹配項(xiàng) 第三次:"是"是選取的詞,是單字,匹配 成功,正向最大匹配算法,例子:我/是/中國(guó)人/ 第三輪:第一次:"中國(guó)人"是選取的詞,在詞典中

5、 找到匹配項(xiàng),匹配成功。 至此,短句中所有字匹配結(jié)束,該短句分詞結(jié)束。,正向最大匹配算法,從右到左尋找詞的最大匹配 與正向最大匹配的區(qū)別在于,從句子的末尾開始,向左邊截取一定的長(zhǎng)度去匹配。,逆向最大匹配算法,從右到左尋找詞的最大匹配,逆向最大匹配算法,例子:我是中國(guó)人 第一輪:第一次:"中國(guó)人"是選取的詞,在詞典中 找到匹配項(xiàng),匹配成功,逆向最大匹配算法,例子:我是/

6、中國(guó)人 第二輪:第一次:因?yàn)槭S嘧謹(jǐn)?shù)已不足3,小于假 定的最大詞長(zhǎng),所以選擇"我是", 在詞典中未找到匹配項(xiàng) 第二次:"是"是選取的詞,是單字,匹配 成功,逆向最大匹配算法,例子:我/是/中國(guó)人 第三輪:第一次:因?yàn)槭S嘧謹(jǐn)?shù)已不足3,小于假 定的最大詞長(zhǎng),所以選擇"我", 是單字,匹配成功 至此,短句中所

7、有字匹配結(jié)束,該短句 分詞結(jié)束。,逆向最大匹配算法,給定人工標(biāo)注的分詞答案,評(píng)價(jià)某一算法給出的結(jié)果。正確率(Precision) = 正確識(shí)別的詞數(shù) / 識(shí)別出的個(gè)體總數(shù)召回率(Recall) = 正確識(shí)別的個(gè)體總數(shù) / 測(cè)試集中存在的個(gè)體總數(shù)F值 = 正確率* 召回率 * 2 / (正確率 + 召回率),分詞算法評(píng)價(jià):正確率/召回率/F值,思考:評(píng)價(jià)程序應(yīng)該怎么寫?,utf-8是不定長(zhǎng)的,根據(jù)左側(cè)位1的個(gè)數(shù)來(lái)決定

8、占用了幾個(gè)字節(jié),中文一般占2-4個(gè)字節(jié),UTF-8編碼,gbk的編碼方式是中文占兩個(gè)字節(jié),英文占一個(gè)字節(jié),根據(jù)第一個(gè)字節(jié)的最高位來(lái)判斷如果第一個(gè)字節(jié)的最高位是1,則是兩個(gè)字節(jié)連在一起為一個(gè)字符,否則一個(gè)字節(jié)為一個(gè)字符中文的編碼范圍 第一個(gè)字節(jié) | 第二個(gè)字節(jié) 0x81-0xFE(129-254) | 0x40-0xFE(64-254),GBK編碼,,數(shù)據(jù)格式,四個(gè)編程任務(wù)(編程語(yǔ)言不限,Li

9、nux上運(yùn)行),1. 構(gòu)建詞典(3分)給一個(gè)人工分好詞的文件data.conll,構(gòu)建一個(gè)詞典,輸出到一個(gè)文件中,起名為word.dict(格式自定義)2. 構(gòu)建毛文本(2分)將data.conll文件中的格式修改為:每行一句話,詞語(yǔ)之間無(wú)空格,起名為data.txt,四個(gè)編程任務(wù)(編程語(yǔ)言不限,Linux上運(yùn)行),3. 前向(5分)或(二者只可以選一個(gè))后向(7分)最大匹配分詞算法給定詞典word.dict,對(duì)data.txt

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論