構造漢語的統(tǒng)計計算語言模型

上傳人：奔*** IP屬地：河北更新時間：2024-01-05 格式：ppt 頁數(shù)：36 大?。?45.00KB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩35頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、漢字編碼,1,漢字編碼,漢字編碼,2,漢字編碼現(xiàn)狀及其根源,多種編碼方案共存，不利于交流和共享新舊標準同臺使用，需相互轉換統(tǒng)一標準正在形成中、日、韓、新等多國同時使用漢字簡繁體漢字并存地區(qū)、國家間的文化、政治差異增加了漢字統(tǒng)一編碼的難度,漢字編碼,3,主要漢字(文字)編碼標準與規(guī)范,ASCII(英文)GB2312GBKGB13000GB18030BIG5Shift_JISISO/IEC 10646Unicode

2、,漢字編碼,4,漢字的幾種通行名稱,Hanzi,Hantsu,漢字Ideographic character,表意字符，中文字符Kanji-日文中的叫法Hanja-朝鮮文中的叫法CJK-中日韓通用字符集Unihan,漢字編碼,5,ASCII碼,,美國信息交換標準編碼(“美標”)用從0到127的128個數(shù)字來代表信息的規(guī)范編碼包括33個控制碼，一個空格碼，和94個形象碼形象碼中包括了英文大小寫字母，阿拉伯數(shù)字，標點符號等

3、國際上大部分電腦的通用編碼,漢字編碼,6,文本文件與二進制文件,,字符大都是用一個八位二進制數(shù)字表示，美標只規(guī)定了128個編碼，剩下的另外128個數(shù)碼沒有規(guī)范，美標中的33個控制碼，各廠家用法也不盡一致文本文件(ASCII Text Files) ：美標形象碼或空格碼組成，通?？稍诓煌娔X系統(tǒng)間直接交換二進制文件(Binary Files) ：含有控制碼或非美標碼的文件，通常不能在不同電腦系統(tǒng)間直接交換,漢字編碼,7,國標、區(qū)位、“

4、準國標” 、機內碼,,國標：中華人民共和國國家標準信息交換用漢字編碼國標(GB2312-80)表（基本表）把七千余漢字、以及標點符號、外文字母等，排成一個94行、94列的方陣每一橫行叫一個“區(qū)”，每個區(qū)有九十四個“位”一個漢字在方陣中的坐標，稱為該字的“區(qū)位碼”例如“中”字在方陣中處于第５４區(qū)第４８位，它的區(qū)位碼就是5448,漢字編碼,8,區(qū)位碼表,,區(qū)位碼來源于信息交換用漢字編碼字符集（基本集）國家標準(GB2312-80)，

5、該標準收漢字6763個，第一級3755個，位于16至55區(qū)，55區(qū)的最后5個字符沒有定義；第二級3008個，位于56至87區(qū)第一級漢字按照漢語拼音字母順序排列，同音字以筆形順序橫（一）、直（丨）、撇（丿）、點（丶）、折（乙）為序。起筆相同按第二筆，依次類推。第二級漢字按部首排序，本標準采用的部首與一般字典用的部首基本相同，略有改變。部首次序及同部首字按筆劃數(shù)排列，同筆劃數(shù)的字以筆形順序橫（一）、直（丨）、撇（丿）、點（丶）、折（乙）

6、為序。起筆相同按第二筆，依次類推。查表時先查區(qū)號，再查行、列，例如：“、”是0102，“藹”是1610。,漢字編碼,9,例,,,,漢字編碼,10,例,,,,,漢字編碼,11,例,,,漢字編碼,12,例,,,漢字編碼,13,例,,,漢字編碼,14,例,,,漢字編碼,15,國標、區(qū)位、“準國標”、機內碼,94:美標中形象碼的總數(shù),33--126 漢字區(qū)、位碼各加上32，就會與美標形象碼的范圍重合,稱為該字的“國標碼”,與其相對應的兩個

7、美標符號，為該字的“國標符” 如何區(qū)分國標符與美標符：國標碼的兩個數(shù)字各加上128，稱“準國標”或“機內碼”機內碼=（區(qū)位碼）H + 8080H +2020H,漢字編碼,16,BIG5碼,針對繁體漢字的編碼，在臺灣、香港的電腦系統(tǒng)中得到普遍應用,,漢字編碼,17,ISO/IEC 10646,一個國際標準編號,國際標準化組織（ISO）1993年正式頒布英文全稱：Information technology - Universal

8、 Multiple - Octet Coded Character Set,簡稱UCS 中文全稱：信息技術--通用多八位編碼字符集，亦稱大字符集宗旨:全球所有文種統(tǒng)一編碼,漢字編碼,18,Unicode,,英文Universal Code的縮略語統(tǒng)一編碼是對國際標準ISO/IEC 10646編碼的一種稱謂是一個企業(yè)聯(lián)盟集團的名稱,由美國的HP、Microsoft、IBM、Apple等幾家知名的大型計算機企業(yè)所組成,成立該集團的

9、宗旨就是要推進多文種的統(tǒng)一編碼就內容而言，Unicode和ISO/IEC 10646是一致的，并行的,漢字編碼,19,CJK-中日韓統(tǒng)一漢字,把中國、日本與韓國的英文稱謂的首字母用于ISO/IEC 10646中的中、日、韓統(tǒng)一編碼漢字的簡稱UnihanCJKV或許更準確，V代表越南,漢字編碼,20,ISO/IEC 10646 的體系結構,,四維的編碼空間總體上分為128個三維組（group）, group的值范圍是從00到7F

10、每一組包含256個平面(plane)，每一個平面包含256行(row)，每一行包含256個字位(cell)，又稱為“列”,plane、row、cell的值范圍都是從00到FF全編碼整個編碼字符集的每個字符都是由4個八位序列表示,(按照組八位、面八位、行八位、列八位的順序) 可編碼空間為：128X256X256X256=32KX64K,漢字編碼,21,ISO/IEC 10646體系結構圖,,,漢字編碼,22,基本多文種平面,,第一個

11、平面（00組中的00平面）稱作Basic Multilingual Plane(基本多文種平面)，簡稱BMP，并在其上規(guī)定了雙八位形式，它可以作為雙八位編碼字符集使用,即在此平面上僅用行、列兩個八位就可以表示一個編碼字符,漢字編碼,23,BMP的最新概貌,,A-Zone(00至4D行) ：拼音文字編碼區(qū),拉丁文、阿拉伯文、日文的平假名及片假名、數(shù)學符號等都在此區(qū)域編碼CJK Unified Ideographs，Extension A

12、(3400-4DB5)(6000多碼位 )CJK Unified Ideographs(4E00-9FA5)(20902個編碼漢字 )韓文 (AC至D7這44行（44X256=11264）)S-ZONE (D8至DF行)for UTF-16R-Zone(E0至FF行):限制使用區(qū)，一些兼容字符、字符的變形顯現(xiàn)形式、特殊字符等均放在此區(qū),漢字編碼,24,ISO/IEC 10646空間分配現(xiàn)狀,,00平面:BMP，被用于全球現(xiàn)已規(guī)范

13、語種的基本文字編碼，編碼空間已基本飽和01平面:作為拼音文字輔助平面02平面:作為漢字輔助平面，CJK Extension B即將放入該平面E0至FF平面:作為該標準的專用平面來使用其它空間尚未分配,漢字編碼,25,ISO/IEC 10646中CJK漢字組成,,CJK統(tǒng)一編碼漢字（20902）CJK擴充集A(6585)CJK擴充集B(4萬--),漢字編碼,26,什么是UTF?,Unicode transformation

14、formatUCS transformation format從Unicode碼點到唯一字節(jié)序列的映射算法，一一映射，保證無損轉換,漢字編碼,27,UTF-16,Unicode標準的16位編碼形式為每個字符指定一個16位的值編碼形式與ISO/IEC 10646中的定義形式相同以一個16位的值來編碼映射到不大于65535數(shù)值的字符，映射到大于65535的數(shù)值的字符則被編碼成一組16位的值（代用對）,漢字編碼,28,UTF-8,為

15、滿足面向字節(jié)、基于ASCII碼系統(tǒng)的需要而制定(主要用于數(shù)據(jù)傳輸、互聯(lián)網(wǎng))用最多達4個字節(jié)的序列來表示每個字符，為有效分析字符串，用第一個字節(jié)指明某個多字節(jié)序列中的字節(jié)數(shù)通常用于數(shù)據(jù)交換,,漢字編碼,29,UTF-32,每個字符都表示成一個32位的整數(shù)碼長相等，便于某些特殊情況的處理Unix系統(tǒng)使用,漢字編碼,30,字節(jié)順序標記(BOM),指示處理器怎樣把連續(xù)的文本放到一個字節(jié)序列中權值最低的字節(jié)位于開頭叫做“l(fā)ittle-e

16、ndian”,權值最高的字節(jié)位于開頭叫做“big-endian”可用作識別文本文件編碼形式的依據(jù),漢字編碼,31,Windows對Unicode的支持,Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在這些操作系統(tǒng)上運行非Unicode編碼程序，在處理之前，操作系統(tǒng)在其內部將應用程序的文本轉化為Unicode編碼的文本，在把信息傳回應用程序之前，操作系統(tǒng)把U

17、nicode編碼的文本轉化回所希望的代碼頁編碼形式。Windows 95, Windows 98, Windows Me不是基于Unicode的，它們只提供了基于Windows NT的Windows版本所提供的Unicode支持的一個子集,漢字編碼,32,GBK,漢字內碼擴展規(guī)范，Rules/Specifications defining the extensions of internal codes for Chinese ide

18、ograms為了推進Unicode的實施，同時也是為了向下兼容,由電子部與國家技術監(jiān)督局聯(lián)合頒布在保持GB2312原貌的基礎上，將其字匯擴充與ISO 10646中的CJK等量，同時也包容了臺灣的工業(yè)標準Big5碼漢字，此外還為用戶留了1894個碼位的自定義區(qū),漢字編碼,33,GB18030-2000,信息技術-信息交換用漢字編碼字符集-基本集的擴充，Information technology-Chinese ideograms

19、coded character set for information interchange-Extension for the basic setGBK的替代、超集,漢字編碼,34,GB18030-2000,完全包含CJK(Unihan) Extension A與GBK完全兼容(code- and character- compatible)的同時，為所有其它Unicode碼點提供了空間定義了4字節(jié)編碼機制,漢字編碼,35,G

20、B18030-2000碼位范圍分配表,,2字節(jié)編碼共23940個碼位4字節(jié)編碼共超過150萬個碼位,漢字編碼,36,ISO 10646/Unicode的實現(xiàn)及其重要意義,,在全球范圍內建立起實時、無障礙的信息交換模式推動了漢字典籍的數(shù)字化為數(shù)字化圖書館的建立鋪平了道路為弘揚漢字文化提供了舞臺Single Binary技術的誕生：同一套基本程序用于多個語言環(huán)境的技術使?jié)h字關聯(lián)活起來：正-異關聯(lián)、中-日關聯(lián)、繁-簡關聯(lián)，正-訛關

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

構造漢語的統(tǒng)計計算語言模型

文檔簡介

溫馨提示

最新文檔

評論

構造漢語的統(tǒng)計計算語言模型

文檔簡介

溫馨提示

最新文檔

評論

免費下載