簡介:1,網絡編程語言,2,應用程序程序編程接口(套接字),實現(xiàn)網絡應用時,要從由網絡輸出的接口開始。既然大多數網絡協(xié)議都是由軟件實現(xiàn)的(特別是協(xié)議棧中的高層協(xié)議),而且?guī)缀跛械挠嬎銠C系統(tǒng)都將網絡協(xié)議的實現(xiàn)作為操作系統(tǒng)的一部分,因而我們說“由網絡輸出的”接口時,通常指的是操作系統(tǒng)為它的網絡子系統(tǒng)提供的接口。這個接口叫做網絡的應用程序編程接口(API)。雖然每個操作系統(tǒng)都可以自由地定義自己的API,但隨著時間的推移,有些API已獲得了廣泛的支持;也就是說,除了它們原始的系統(tǒng)外,它們還被移植到操作系統(tǒng)中。,3,應用程序程序編程接口(套接字),套接字接(SOCKETINTERFACE)口它最初是由加州大學伯克利分校的UNIX小組開發(fā),而現(xiàn)在幾乎所有流行的操作系統(tǒng)都支持它。業(yè)界支持單一API的優(yōu)點是使得應用程序可以很簡單地從一個操作系統(tǒng)移植到另一個操作系統(tǒng)。但是我們得記住一點,通常應用程序與操作系統(tǒng)許多部分相互作用,而不僅僅與網絡相互作用。例如,讀寫文件,產生并行進程和輸出圖形顯示。每個協(xié)議提供了一系列服務(SERVICE),API則提供了特定操作系統(tǒng)中調用這些服務所用的語法(SYNTAX)。然后,實現(xiàn)的作用是把API定義的具體操作和對象映射到協(xié)議定義的抽象服務集上。,4,應用程序程序編程接口(套接字),套接字接口的主要概念是套接字(SOCKET)。理解套接字的好方法是把它看作本地應用進程與網絡的接入點。接口定義了各種操作,包括創(chuàng)建套接字、將套接字連到網上、通過套接字發(fā)送/接收消息,關閉套接字。為了簡化討論,我們在此只討論TCP中如何使用套接字。第一步是創(chuàng)建套接字,用如下操作實現(xiàn)該操作有三個參數是因為套接字接口被設計成通用的,定義支持任意的底層協(xié)議集。,,5,應用程序程序編程接口(套接字),,2TYPE參數表明通信的語義。SOCK_STREAM說明是字節(jié)流。SOCK_DGRAM則表明是面向消息的服務,像UDP提供的一樣。,,3PROTOCOL參數則指明將要用到的特定協(xié)議。,,SOCKET返回值是新創(chuàng)建套接字的句柄(HANDLE),即以后引用該套接字時使用的標識符。在套接字的其他操作中,它也將作為一個參數。,,1DOMAIN參數描述將使用的協(xié)議族。AF_INET用于表示因特網協(xié)議族。AF_UNIX用于表示UNIX管道功能,6,客戶/服務器模式,在TCP/IP網絡應用中,通信的兩個進程間相互作用的主要模式是客戶/服務器模式(CLIENT/SERVERMODEL),即客戶向服務器發(fā)出服務請求,服務器接收到請求后,提供相應的服務??蛻?服務器模式的建立基于以下兩點首先,建立網絡的起因是網絡中軟硬件資源、運算能力和信息不均等,需要共享,從而造就擁有眾多資源的主機提供服務,資源較少的客戶請求服務這一非對等作用。其次,網間進程通信完全是異步的,相互通信的進程間既不存在父子關系,又不共享內存緩沖區(qū),因此需要一種機制為希望通信的進程間建立聯(lián)系,為二者的數據交換提供同步,這就是基于客戶/服務器模式的TCP/IP。,,7,客戶/服務器模式,客戶/服務器模式在操作過程中采取的是主動請求方式首先服務器方要先啟動,并根據請求提供相應服務1打開一通信通道并告知本地主機,它愿意在某一公認地址上(周知口,如FTP為21)接收客戶請求;2等待客戶請求到達該端口;3接收到重復服務請求,處理該請求并發(fā)送應答信號。接收到并發(fā)服務請求,要激活一新進程來處理這個客戶請求(如UNIX系統(tǒng)中用FORK、EXEC)。新進程處理此客戶請求,并不需要對其它請求作出應答。服務完成后,關閉此新進程與客戶的通信鏈路,并終止。4返回第二步,等待另一客戶請求。5關閉服務器,8,客戶/服務器模式,客戶方1打開一通信通道,并連接到服務器所在主機的特定端口;2向服務器發(fā)服務請求報文,等待并接收應答;繼續(xù)提出請求3請求結束后關閉通信通道并終止。從上面所描述過程可知1客戶與服務器進程的作用是非對稱的,因此編碼不同。2服務進程一般是先于客戶請求而啟動的。只要系統(tǒng)運行,該服務進程一直存在,直到正?;驈娖冉K止。,9,應用程序程序編程接口(套接字),下一步看你是客戶還是服務器。如果是服務器在服務器主機上,應用進程執(zhí)行一個被動的打開,即服務器表明它已準備好接受連接,但并沒有真正建立連接。服務器通過調用以下三個操作來完成打開,10,套接字類型,TCP/IP的SOCKET提供下列三種類型套接字。(1)流式套接字(SOCK_STREAM)提供了一個面向連接、可靠的數據傳輸服務,數據無差錯、無重復地發(fā)送,且按發(fā)送順序接收。內設流量控制,避免數據流超限;數據被看作是字節(jié)流,無長度限制。文件傳送協(xié)議(FTP)即使用流式套接字。(2)數據報式套接字(SOCK_DGRAM)提供了一個無連接服務。數據包以獨立包形式被發(fā)送,不提供無錯保證,數據可能丟失或重復,并且接收順序混亂。網絡文件系統(tǒng)(NFS)使用數據報式套接字。(3)原始式套接字(SOCK_RAW)該接口允許對較低層協(xié)議,如IP、ICMP直接訪問。常用于檢驗新的協(xié)議實現(xiàn)或訪問現(xiàn)有服務中配置的新設備。,11,典型套接字調用過程舉例,如前所述,TCP/IP協(xié)議的應用一般采用客戶/服務器模式,因此在實際應用中,必須有客戶和服務器兩個進程,并且首先啟動服務器,其系統(tǒng)調用時序圖如下。面向連接的協(xié)議(如TCP)的套接字系統(tǒng)調用如下圖所示服務器必須首先啟動,直到它執(zhí)行完ACCEPT調用,進入等待狀態(tài)后,方能接收客戶請求。假如客戶在此前啟動,則CONNECT將返回出錯代碼,連接不成功。,見下圖,12,服務器方客戶方,13,STATUSOFPARENTANDCHILDPROCESSESWITHRESPECTTOTHESOCKET,,,,,,,,14,典型套接字調用過程舉例,無連接協(xié)議的套接字調用如下圖所示無連接服務器也必須先啟動,否則客戶請求傳不到服務進程。無連接客戶不調用CONNECT。因此在數據發(fā)送之前,客戶與服務器之間尚未建立完全相關,但各自通過SOCKET和BIND建立了半相關。發(fā)送數據時,發(fā)送方除指定本地套接字號外,還需指定接收方套接字號,從而在數據收發(fā)過程中動態(tài)地建立了全相關。,見下圖,15,,16,應用程序程序編程接口(套接字),1BIND操作如其名字一樣,是將新創(chuàng)建的SOCKET與ADDRESS綁定。這是本地參與者(即服務器)的網絡地址。注意,ADDRESS在因特網協(xié)議中使用時是表示一個數據結構,其中包括服務器的IP地址和TCP端口號。端口號通常是一些眾所周知的、專門提供給服務的號嗎;例如,WEB服務器通常在端口80上接受連接。,2LISTEN操作定義在指定的SOCKET上可以有多少個待處理的連接。,3ACCEPT操作完成被動打開。它是一個阻塞的操作,在遠程參與者沒有建立起連接前,它不會返回任何參數,一旦連接成功,它將返回一個表示這個新建連接的新的套接字,并且ADDRESS參數還包括了遠程參與者的地址。,注意,當ACCEPT返回時,以前作為參數給定的原始套接字依然存在并依然對應于被動打開;在以后調用ACCEPT時它仍作為參數。,17,應用程序程序編程接口(套接字),在客戶機上,應用程序執(zhí)行主動打開;也就是,它通過調用如下的一個操作來表明它希望與誰通信,該操作直至TCP成功建立連接后才返回,此時應用程序就可以開始發(fā)送數據。ADDRESS中包括了遠程參與者的地址。實際上,客戶機通常只描述遠程參與者的地址,讓系統(tǒng)自動填寫本地信息。鑒于服務器通常在共知的端口監(jiān)聽消息,一般地,客戶機并不關心它自己用哪個端口;操作系統(tǒng)簡單地選一個未用端口即可。,18,應用程序程序編程接口(套接字),一旦連接建立,應用進程將調用以下兩個操作來發(fā)送和接收數據,這個操作在指定的SOCKET上發(fā)送MESSAGE,這個操作則是將從指定的SOCKET上收到的消息放入指定的BUFFER。它們都使用一系列FLAGS來控制操作的特定細節(jié)。,19,應用實例,現(xiàn)在,我們來看一個簡單的客戶機/服務器程序的實現(xiàn),它用套接字接口在一個TCP連接上發(fā)送消息。這個程序還用到了其他的UNIX網絡功能,我們將逐個介紹。我們的應用允許用戶在一端的機器上輸入并把文本發(fā)送給另一端機器的用戶。它是UNIX中TALK程序的一個簡化版本,類似于WEB聊天室的核心程序。,20,應用實例,1客戶端我們先從客戶端開始,它用遠端的機器名作為參數。它調用UNIX程序GETHOSTBYNAME把該名字翻譯為遠端主機的IP地址。下一步是構造套接字接口所需的地址數據結構(SIN)。注意這個數據結構表明我們將一直用套接字與因特網連接(AF_INET)。在以下例子中,我們用TCP端口號5432作為共知的服務器端口號;它恰好不是分配給其他因特網服務的端口號。建立連接的最后一步是調用SOCKET和CONNECT。一旦CONNECT操作返回,建立起連接,客戶機程序將進入主循環(huán),不斷從標準輸入讀取文本并通過套接字發(fā)送。,21,客戶端程序,22,應用實例,2服務器服務器的實現(xiàn)也很簡單。首先,它填入自己的端口號(SERVER_PORT)構造地址數據結構。其次,它并不指明IP地址,從而使應用程序可以接受來自本地任一IP地址的連接。然后,服務器執(zhí)行與被動打開有關的初始步驟創(chuàng)建一個套接字,將它綁定到本地地址。然后設置允許同時連接的最大數。最后,主循環(huán)等待遠端主機與它連接,當遠端有一臺主機試圖與它連接時,它就接收并輸出連接上送來的字符。,23,服務器程序,24,協(xié)議實現(xiàn)的問題,應用程序與底層網絡交互的方式類似于高層協(xié)議與低層協(xié)議交互的方式。例如,TCP需要一個接口向IP發(fā)送消息,同時也需要IP能向TCP傳送消息。這就是服務接口。既然我們已經有了網絡的API(如套接字),或許我們可以在協(xié)議棧的每一對協(xié)議間使用同樣的接口。盡管這只是一種選擇,但在實際中我們并不這樣使用套接字接口。原因在于套接字接口在協(xié)議實現(xiàn)方面的低效是協(xié)議實現(xiàn)者所不能忍受的。應用編程人員之所以能忍受是因為它簡化了編程工作,而且畢竟他對低效只需忍受一次就夠了,而協(xié)議實現(xiàn)者卻要常常被它們的性能所困擾,總擔心穿過幾層協(xié)議是否能得到一條消息。本節(jié)的其余部分將討論網絡API和位于協(xié)議圖下方的協(xié)議到協(xié)議接口的兩點主要不同。同時介紹協(xié)議實現(xiàn)常用到的庫例程。,25,協(xié)議實現(xiàn)的問題,1進程模型大多數操作系統(tǒng)都提供一種抽象概念叫進程(PROCESS),或叫線程(THREAD)。每個進程的運行很大程度上獨立于其他進程,操作系統(tǒng)負責確保給所有當前的進程分配如地址空間和CPU周期這樣的資源。進程這一抽象概念使得在一臺機器上并發(fā)運行多個事件變得相當簡單;例如,每個用戶的應用程序可以在自己的進程中執(zhí)行,操作系統(tǒng)中的各種事件可以作為其他進程執(zhí)行。操作系統(tǒng)將正在CPU上運行的進程停止并啟動另一進程時,我們稱這一轉換為上下文切換(CONTEXTSWITCH)。,26,協(xié)議實現(xiàn)的問題,在設計一個網絡子系統(tǒng)時,首先要回答的問題之一是,“進程在哪兒”基本上有兩種選擇,如圖所示。第一種選擇,我們稱為進程/協(xié)議(PROCESSPERPROTOCOL)模型,每個協(xié)議由一個獨立的進程實現(xiàn)。這就意味著當一條消息向協(xié)議棧的上方或下方移動時,它被從一個進程/協(xié)議傳送到另一個進程/協(xié)議,即實現(xiàn)協(xié)議I的進程處理這個消息,然后把它傳給協(xié)議I1,以此類推。一個進程/協(xié)議如何向下一個進程/協(xié)議傳遞消息依賴于主機操作系統(tǒng)提供的進程間通信的支持。通常有一個簡單的機制把消息與進程排隊。然而,重要的一點是,協(xié)議圖的每一層都要求上下文切換,這是一個典型的耗時操作。,27,協(xié)議實現(xiàn)的問題,我們把另一種稱為進程/消息(PROCESSPERMESSAGE)模型,它把每個協(xié)議當做一段靜態(tài)編碼并把進程同消息聯(lián)系起來。也就是說,當網絡送來一條消息時,操作系統(tǒng)調度一個進程,使之負責消息在協(xié)議圖中向上移動。在每一層,調用實現(xiàn)該協(xié)議的過程,然后調用實現(xiàn)下一個協(xié)議的過程,以此類推。對于輸出的消息,應用程序調用必要的過程,直到消息被送入網絡。在兩個方向中,協(xié)議圖都被一系列過程調用一遍。,28,協(xié)議實現(xiàn)的問題,結論雖然有時感覺進程/協(xié)議模型比較容易,即我在我的進程中實現(xiàn)我的協(xié)議,而你在你的進程中實現(xiàn)你的協(xié)議。但由于一個簡單的原因,進程/消息模型通常更有效即在大多數計算機上,過程調用的效率比上下文切換高一個數量級。第一種模型要求每一層有一個上下文切換,而第二種模型只要求每一層有一個進程調用。,29,協(xié)議實現(xiàn)的問題,大多數協(xié)議實現(xiàn)用DELIVER操作代替RECEIVE操作。也就是低層協(xié)議做向上調用(UPCALL),它是一個向上調用協(xié)議棧的過程,將消息傳送到高層協(xié)議。圖顯示了兩個相鄰協(xié)議(本例中為TCP和IP)的接口。一般情況下,消息向協(xié)議棧的下方移動調用一系列SEND操作,向協(xié)議圖上方移動則調用一系列DELIVER操作。,代碼段用下列操作,其中LLP表示低層協(xié)議,其上的正在調用它的協(xié)議已被配置;HLP表示正在調用協(xié)議之上配置的高層協(xié)議。注意,我們用PROTOCOL這一變量類型和變量LLP和HLP簡化了使用,它們隱藏了協(xié)議圖中如何配置協(xié)議、高層協(xié)議如何在低層協(xié)議上打開一個連接的細節(jié)。,30,協(xié)議實現(xiàn)的問題,2消息緩沖區(qū)套接字接口的第二個低效之處在于當調用SEND時應用進程提供緩沖區(qū),保存向外發(fā)送的消息,類似于當調用RECEIVE時將進來的消息復制到緩沖區(qū)中。它強制最高層的協(xié)議把消息從應用程序緩沖區(qū)復制到網絡緩沖區(qū)中,或反之,如圖所示。將數據從一個緩沖區(qū)復制到另一個緩沖區(qū)是協(xié)議實現(xiàn)中代價最高的工作之一。因為處理器的速度以巨大的步伐加快,而內存的發(fā)展并不如處理器那么快。,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數: 30
大?。?0.69(MB)
子文件數:
簡介:統(tǒng)計自然語言處理基本概念,模型,,,,,真實世界中的系統(tǒng),模型1,INPUT,,,OUTPUT,,模型2,,OUTPUT1,OUTPUT2,如果OUTPUT1總是和OUPUT接近,OUTPUT2總是和OUTPUT偏離,我們就認為模型1比模型2好,,,,,,,真實系統(tǒng),,,,模型1,,模型2,INPUT,OUTPUT,,模型由體系結構和參數兩部分構成舉例住宅樓多層板樓高層板樓高層塔樓參數層數戶型三室一廳,兩室一廳,舉架高度供熱方式地熱暖氣片,目錄,樣本空間SAMPLESPACE估計器ESTIMATOR和隨機過程STOCHASTICPROCESS信息論INFORMATIONTHEORY數據集分類DATASETCLASSIFICATION性能評價PERFORMANCEMEASURE,樣本空間SAMPLESPACE,,試驗EXPERIMENT,試驗一個可觀察結果的人工或自然的過程,其產生的結果可能不止一個,且不能事先確定會產生什么結果例如連擲兩次硬幣樣本空間是一個試驗的全部可能出現(xiàn)的結果的集合舉例連擲兩次硬幣?{HH,HT,TH,TT},H面朝上T面朝下,事件EVENT,事件一個試驗的一些可能結果的集合,是樣本空間的一個子集舉例連擲兩次硬幣A至少一次面朝上B第二次面朝下A{HT,TH,HH},B{HT,TT},事件的概率,事件的概率重復M試驗,如果事件A出現(xiàn)的次數為N,則事件A的概率為PAN/M,這稱為概率的頻率解釋,或稱統(tǒng)計解釋頻率的穩(wěn)定性又稱為經驗大數定理舉例連擲兩次硬幣A至少一次面朝上B第二次面朝下PA3/4,PB1/2當試驗不能重復時,概率失去其頻率解釋的含義,此時概率還有其他解釋貝葉斯學派和信念學派一個人出生時的體重,一個人只能出生一次,舉例,舉例連續(xù)三次擲硬幣樣本空間?{HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}事件A恰好兩次面朝下A{HTT,THT,TTH}做1000次試驗,計數得386次為兩次面朝下估計PA386/10000386繼續(xù)做7組試驗,得373,399,382,355,372,406,359,共8組試驗計算平均值PA03860373/80379,或累計PA386373/80003032/80000379統(tǒng)一的分布假設為3/80375,概率空間,概率空間的三個公理PA?0P?1PA?BPAPBIFA?B?這三條公理也是概率的原始定義推論P?0A?B?PA0正相關,?0X和Y關聯(lián)強度大IX,Y0X和Y無關IX,Y0X和Y具有互補的分布,熵ENTROPY,熵ENTROPYCHAOS(混沌),無序物理學除非施加能量,否則熵不會降低舉例把房間弄亂很容易,整理干凈不容易是不確定性UNCERTAINTY的衡量不確定性越高,熵越高,我們從一次實驗中得到的信息量越大,熵的公式,熵HX?X??PXLOGXPX假設PXX是隨機變量X的分布基本輸出字母表是?單位BITS熵是X的平均信息量,是自信息量的期望EX?X??PXXIXLOGPX,取2為底,IXLOG2PXEIXELOG2PX?X??PXLOG2PXHXHXHPHPXHXPHPX,熵的例子,擲均勻硬幣,?{H,T}PH5,PT5HP05LOG20505LOG205132面的均勻骰子,擲骰子HP321/32LOG21/325事實上,212,2532PERPLEXITY擲不均勻硬幣PH02,PT08,HP0722PH001,PT099,HP0081,好書店,差書店,,什么時候HP0試驗結果事先已經知道即?X??,PX1?Y??,PY0IFY?X熵有沒有上限沒有一般的上限對于|?|N,HP?LOG2N均衡分布的熵是最大的,,等概率分布2個輸出的等概率分布,HP1BIT32個輸出的等概率分布,HP5BITS43億輸出的等概率分布,HP32BITS非等概率分布32個輸出,2個05,其余為0,HP1BIT怎樣比較具有不同數量輸出的“熵”,混亂度PERPLEXITY,混亂度GP2HP平均每次試驗有多少種可能的結果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預測,熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小,聯(lián)合熵和條件熵,兩個隨機變量X空間是?,Y?聯(lián)合熵JOINTENTROPYX,Y被視為一個事件HX,Y?X???Y??PX,YLOG2PX,Y條件熵CONDITIONALENTROPYHY|X?X???Y??PX,YLOG2PY|XPX,Y是加權,權值是沒有條件的,條件熵,HY|X?X??PXHY|XX?X??PX?Y??PY|XLOG2PY|X?X???Y??PY|XPXLOG2PY|X?X???Y??PX,YLOG2PY|X,熵的性質,熵的非負的HX?0CHAINRULEHX,YHY|XHXHX,YHX|YHYHX,Y?HXHY,X和Y獨立時相等HY|X?HY,條件熵比熵小,熵的編碼意義,如果一個符號序列是滿足概率分布P的隨機過程產生的,那么對這個序列進行編碼至少需要的BIT數是HP壓縮問題如果數據中有很多重復的模式,則易于壓縮,因為熵小否則,熵大,不容易壓縮,編碼實例,怎樣給ISOLATIN1編碼通常用8位經驗表明有的字符經常出現(xiàn),有的字符很少出現(xiàn)我們可以給經常出現(xiàn)的字用較少的BIT來表示,給很少出現(xiàn)的字符用較多的BIT來表示假設P‘A’03,P‘B’03,P‘C’03,其余PX00004編碼A00,B01,C10,其余11B1B2B8對于符號串ACBBéCBAAC,編碼為ACBBéCBAAC0010010111000011111001000010如果每個符號用8位編碼,需要80位,現(xiàn)在需要28位,語言的熵,PCN1|C1CNCI是語言中的一個字符C1CN是歷史H舉例漢語,N3P趙|圍魏救高P去|我曾經低計算語言的條件熵?H?H?C??PC,HLOG2PC|H,各種語言的熵,按字母計算的零階熵法文398BITS意大利文400BITS西班牙文401BITS英文403BITS德文410BITS俄問435BITS中文(按漢字計算)965BITS中文(按筆畫計算)343BITS按詞匯計算的零階熵英語100BITS漢語1146BITS說明漢語的詞匯豐富語言的冗余度英語73;俄語70;漢語63;古文更低,KULLBACKLEIBLER距離,假設通過一組試驗估計得到的概率分布為P,樣本空間?,隨機變量X真實的分布為Q,相同的?和X現(xiàn)在的問題是P和Q相比,誤差多大KULLBACKLEIBLER距離給出的答案是DQ||P?X??QXLOG2QX/PXEPLOGQX/PX,KL距離(相對熵),習慣上0LOG00PLOGP/0?DISTANCEORDIVERGENCE(分歧)不對稱DQ||P?DP||Q也不滿足三角不等式事實上,DQ||P不是距離,而是分歧HQDQ||P根據Q分布,對P進行編碼需要的BIT數(交叉熵),平均互信息,隨機變量XYPX?YX,YPXXPYY兩個離散集之間的平均互信息IX,YDPX,Y||PXPY?X???Y??PX,YLOG2PX,Y/PXPY這里說的是兩個離散集的平均互信息互信息衡量已知Y的分布時,對X的預測有多大的幫助,或者說Y的知識降低了HX或者說PX,Y和PXPY之間的距離,,互信息的性質,IX,YHXHX|YHYHY|XIX,YHXHYHX,Y因為HX,YHX|YHYIX,XHX因為HX,X0IX,YIY,XIX,Y?0,交叉熵CROSSENTROPY,典型情況我們得到一個觀察序列T{T1,T2,TN},TI??估計?Y??PYCY/|T|,定義CY|{T?T,TY}|但是,真實的Q不知道,再大的數據也不夠問題用P對Q進行估計是否準確方法用一個不同的觀察序列T’估計實際的Q,交叉熵,HP’PHP’DP’||PHP’P?X??P’XLOG2PXP’當然也不是真實的分布,但是我們視為真實世界的分布,以便測試P交叉混亂度GP’P2HP’P,條件交叉熵,實踐中計算的往往是條件交叉熵兩個樣本空間樣本空間?,隨機變量Y,Y?Y上下文樣本空間?,隨機變量X,X?X實驗得到的分布PY|X,“真實”分布P’Y|XHP’P?Y??,X??P’Y,XLOG2PY|X條件交叉熵中的權值是P’Y,X,不是P’Y|X,,在實際應用中,在全部兩個樣本空間上做累加通常不是很方便,因此常常簡化使用如下公式HP’P?Y??,X??P’Y,XLOG2PY|X1/|T’|?I1|T’|LOG2PYI|XI事實上,就是在T’上進行累加,然后歸一化1/|T’|LOG2?I1|T’|PYI|XI,舉例,?{A,B,,Z},概率分布(估計值)PA025,PB05,P?1/64,??{C,,R},P?0,??{S,,Z}測試數據為BARB,P’AP’R025,P’B05在?上做累加?ABCDQRSZP’?LOG2P?0505000150025也可以在測試數據上進行累加,然后歸一化SIBARBLOG2PSI1261101/4?1025,,HP和HP’P之間可能有各種關系包括‘?’,‘?’,‘?’舉例(參照上例)HP25測試數據BARBHP’P1/4126125測試數據PROBABLEHP’P1/866612166425測試數據ABBAHP’P1/4211215,交叉熵的使用,不是比較數據,而是比較分布如果我們有兩個分布P和Q,哪一個更好呢面對“真實數據”S,P和Q誰的交叉熵低,誰就更好HTP1/|S|LOG2?I1|S’|PYI|XIHTQ1/|S|LOG2?I1|S’|QYI|XI,,數據集分類,,,訓練集TRAININGSET用來獲得模型參數測試集TESTINGSET從訓練集以外獨立采樣反映系統(tǒng)面對真實世界的處理能力測試集經常被無意識地“做了手腳”交叉確認集CROSSVALIDATIONSET從訓練集和測試集以外獨立采樣主要用來幫助做設計決策,測試集,測試集從訓練集去評價系統(tǒng)的性能,結果往往過于樂觀如果模型的參數比需要的多很多時,獲得100的準確率也是可能的過擬和OVERFITTING常常出現(xiàn)在訓練數據的數量不足以支持模型的復雜程度之時為此,我們需要另一個數據集來模擬用戶的真實需要,,在設計階段,不允許偷看測試數據的細節(jié),以保證測試數據不被污染你不能參照測試數據來決定模型的復雜度,特征空間的維數,以及什么時候決定停止訓練過程等設計決策可以參照交叉確認數據進行每一個階段采用一個不同測試集當你試圖選擇一個最好的方法使測試效果達到最佳時,實際上已經在無意識地使你的系統(tǒng)偏向測試集問題的關鍵在于測試集并不是真實數據本身,如果面向測試集調整參數,可能造成系統(tǒng)對于從未見過的真實數據效果下降,,交叉確認集如果在訓練集合上獲得了比較差的結果,我們必須重新設計如果在訓練集合上獲得了比較好的結果,那可能是因為模型確實好(在測試數據上性能一樣會好)模型過擬和(在測試數據上性能會下降)由于不允許使用測試集來改進系統(tǒng)設計,因此需要另一個數據集,性能評價,,,使用有限的樣本進行性能測試有估計誤差性能評價的結果和測試數據的大小有關不同數據集的測試結果往往不同性能上限PERFORMANCEUPPERBOUND人與人取得一致的指標就是系統(tǒng)性能的上限,,聯(lián)立表CONTINGENCYTABLE,,準確率PPRECISIONN11/N11N21召回率RRECALLN11/N11N12錯誤率EERRORRATEN12N21/N11N12N21N22FMEASURE2PR/PR,謝謝,,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數: 72
大小: 0.47(MB)
子文件數:
簡介:經管學院2014年語言文字工作總結,總結,2014年,我院結合本院實際情況,努力提高師生語言文字意識,提升學院文化品位,增強學院凝聚力、向心力。學院領導十分重視語言文字工作,帶頭參加各項語言文字規(guī)范化活動,并派專人成立語言文字工作小組,定期召開語言文字工作會,定期檢查全院師生語言文字工作情況,及時轉達學校普通話測試工作及語言文字工作的相關安排,設立了相關獎罰制度,實行年底考核評優(yōu)。學院多次開展語言文字規(guī)范化活動,如學生讀書報告會、“打造絕佳策劃案”培訓講座、“寄語春天”教職工詩歌朗誦會、“人際交往和溝通技巧”專題講座、年青年教師教學基本功比賽、我的中國夢奮斗的青春最美麗主題辯論賽等一系列形式生動活潑、意義深遠的語言文字活動。9月,學院還推出普通話宣傳周特別活動,以海報、標語、橫幅、墻報等豐富多樣的形式推廣普通話。學院建有普通話網頁,通過網頁傳播語言文字知識、展示語言文字規(guī)范化活動開展情況。學院組織師生向重慶大學語言文字工作網投稿。此外,學院師生積極參加學校和機關組織的各類語言文字規(guī)范化活動。,目錄,三、語言文字宣傳工作,一、領導重視機構健全,二、積極開展語言文字教育培訓、競賽或趣味活動,四、積極參加全國、重慶市、學?;驒C關組織的語言文字類競賽活動,五、日常工作用語用字規(guī)范情況,點擊添加文本,一、領導重視機構健全,經管學院建立了學院領導牽頭的語言文字工作領導小組,定期召開專題會議,對語言文字工作進行布置和檢查,安排專人按時報送要求提交的相關信息和數據等。,廖冰副院長主持語言文字工作會,廖冰副院長、辦公室副主任葉平檢查普通話與文字使用規(guī)范情況,,,二、積極開展語言文字教育培訓、競賽或趣味活動,學生讀書報告會,“打造絕佳策劃案”培訓講座,“寄語春天”教職工詩歌朗誦會,“人際交往和溝通技巧”專題講座,二、積極開展語言文字教育培訓、競賽或趣味活動,我的中國夢奮斗的青春最美麗主題辯論賽,師生語言文字規(guī)范知識測試,行政教職工“金秋十月愛我中華”詩歌朗誦活動,普通話推廣情況調研活動,二、積極開展語言文字教育培訓、競賽或趣味活動,經管學院舉辦2014年青年教師教學基本功比賽在比賽中,選手們各展所長,展示了青年教師的激情和風貌。授課內容充實、清晰,教具、模型使用恰當,講解深入淺出,多媒體課件制作精美,展示了不同的教學特色和授課風格。,“搞定高水平論文”講座,知識競賽之“傳統(tǒng)文化”活動,,,三、語言文字宣傳工作,1推普周宣傳活動,,,2.語言文字網頁專欄,學院建有專門的語言文字網頁,全方位及時反映我院全年開展的各類宣傳、教育、競賽、培訓等活動情況,HTTP//SEBACQUEDUCN/PTHYYWZGZ/INDEXJHTML,,,3.新聞投稿16篇,,,四、積極參加全國、重慶市、學校或機關組織的語言文字類競賽活動,袁絲語,能源經濟重慶大學第十四屆外語文化節(jié)系列活動之微電影三等獎戴燕珊ACCA班軍訓朗誦比賽三等獎陳偉會計1班重慶市首屆科普人員及科普志愿者培訓結業(yè)證書林巧、韋超、信管軍訓期間紅色主題朗誦比賽三等獎,五、日常工作用語用字規(guī)范情況,要求師生教職員工講普通話要求師生教職員工規(guī)范使用語言文字在醒目處張貼語言文字宣傳海報、宣傳欄及時傳達學校相關語言文字工作文件通知學院領導定期檢查語言文字工作的開展情況,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數: 12
大小: 4.08(MB)
子文件數: