哈夫曼編碼的實現及應用畢業(yè)論文

上傳人：奔*** IP屬地：河北更新時間：2024-03-01 格式：doc 頁數：54 大?。?99.50KB 人氣指數：12 舉報 版權申訴

已閱讀1頁，還剩53頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、　　畢業(yè) 設計（論文）　　題目哈夫曼編碼的實現 　　及應用 　　二級學院數學與統計學院 　　專業(yè) 信息與計算科學

2、班級 　　學生姓名學號 　　指導教師職稱 　　時間

3、　目錄　　摘要I　　AbstractII　　第一章緒論1　　1.1 研究目的及意義1　　1.2 圖像壓縮編碼技術概述2&l

4、t;/p>　　1.2.1 圖像壓縮編碼技術分類2　　1.2.2 圖像壓縮編碼評價2　　1.3 哈夫曼編碼簡介3　　1.4 本設計所做的主要工作4　　第二章利用靜態(tài)哈夫曼編碼實現圖像壓縮5

5、2.1 靜態(tài)哈夫曼編碼介紹5　　2.2 靜態(tài)哈夫曼編碼樹的構造6　　2.3 靜態(tài)哈夫曼編碼的具體編碼過程6　　2.4 靜態(tài)哈夫曼編碼的算法實例7　　2.3 利用靜態(tài)哈夫曼編碼壓縮與還原圖像的C語言實現9　　2.3.1 壓

6、縮的實現9　　2.3.2 解壓縮的實現11　　2.4 圖象壓縮實例12　　第三章利用動態(tài)哈夫曼編碼實現圖像壓縮15　　3.1 動態(tài)哈夫曼編碼的提出15　　3.2 動態(tài)哈夫曼編碼的原理15<

7、;p>　　3.3 動態(tài)哈夫曼編碼的算法思想16　　3.4 動態(tài)哈夫曼編碼的編碼實例18　　3.5 利用動態(tài)哈夫曼編碼壓縮與還原圖像的C語言實現25　　3.5.1 數據結構25　　3.5.2 壓縮的實現26　　3.5

8、.3 解壓縮的實現27　　3.6 圖像壓縮實例28　　3.7 靜態(tài)哈夫曼編碼與動態(tài)哈夫曼編碼的比較29　　第四章對哈夫曼編碼的改進31　　4.1 在哈夫曼編碼中引入堆排序31　　4.2 模擬哈夫曼樹的創(chuàng)建32<

9、/p>　　第五章總結34　　5.1 總結34　　參考文獻35　　附錄36<b

10、>　　摘要　　哈夫曼編碼是一種以哈夫曼樹—即最優(yōu)二叉樹為核心的編碼方式，經常應用于數據壓縮。在計算機信息處理中，“哈夫曼編碼”是一種一致性編碼法（又稱"熵編碼法"），用于數據的無損壓縮。"熵編碼法"是指使用一張?zhí)厥獾木幋a表將源字符（例如某文件中的一個符號）進行編碼。這張編碼表的特殊之處在于，它是通過統計每一個源字符出現的概率建立起

11、來的（出現概率高的字符使用較短的編碼，反之出現概率低的則使用較長的編碼，這使得編碼之后的字符串的平均長度是最短的，從而達到無損壓縮數據的目的）。論文全面分析了靜態(tài)哈夫曼編碼和動態(tài)哈夫曼編碼算法算法，詳細介紹了靜態(tài)哈夫曼編碼樹和和動態(tài)哈夫曼編碼樹的構造方案，并針對這兩種算法，給出了對應的C 語言代碼。經運行分析發(fā)現，由于在構造靜態(tài)哈夫曼樹時，大量的時間消耗在從元素集合中選取兩個最小的元素上。而動態(tài)哈夫曼編碼算法，雖然克服了前者的缺點，但是

12、算法復雜，而且解壓縮時間長。因此，根據字符編碼的單值性，對哈夫曼編碼做了第二個改進，即不構造哈夫曼樹，而是用一個二維數組模擬哈夫曼樹的創(chuàng)建過程并得到各字符的編碼，這一改進有效地提高了壓縮比。　　關鍵詞：靜態(tài)哈夫曼編碼，壓縮，節(jié)點，哈夫曼樹　　Abstract　　Huffman

13、 encoding is a huffman tree that is optimal binary tree as the core, often used in data compression. In the computer information processing, "Huffman coding" is a consistent coding method (also known as entropy

14、 coding method ") for lossless compression of data. Entropy coding method "refers to the source character (for example, a file of a symbol) is encoded using a special encoding table. This coding table is specia

15、l because it is the statistical probability of occurrence of each source 　　Keywords: Static huffman coding, Compression, Node, huffman tree　　第一章緒論

16、　　1.1 研究目的及意義　　從信息論角度看，信源編碼的一個最主要的目的，就是要解決數據的壓縮問題。　　數據壓縮是指以最少的代碼表示信源所發(fā)出的信號，減少容納給定信息集合或數據采樣集合的信號空間。圖像編碼與壓縮的目的就是對圖像數據按一定的規(guī)則進行變換和組合，從而達到以盡可能少的代碼表示盡可能多的圖像信息。<

17、p>　　圖像數字化之后，其數據量非常龐大，例如，一副640×480 的彩色圖像（24bit/　　像素），其數據量約為921.6KB。如果以30 幀/s 的速度播放，則每秒的數據量為640×480×24×30bit=221.12Mbit，需要221 Mbit/s 的通信回路。在多媒體中，海量圖像數據的存儲和處理是一個難題。如不進行編碼壓縮處理，一張存6

18、50MB 字節(jié)的光盤僅能存放24s 左右的640 像素×480 像素的圖像畫面[1][5]。總之，大數據量的圖像信息會給存儲器的存儲容量、通信干線通道的帶寬以及計算機的處理速度增加極大的壓力。僅靠增加存儲器容量，提高信道帶寬以及計算機的處理速度等方法來解決這個問題是不現實的。另一方面，圖像本身包含著大量的冗余成分。統計測量表明圖像信號在相鄰像素間、相鄰行間、相鄰幀之間存在著很強的相關性。一般情況下，畫面中亮度變化相對平坦的地方

19、，相鄰像素就有相同的值，而且對相鄰幀的圖像來說，畫面中的大部分區(qū)域信號變化緩慢，尤其是背景部分幾乎不變。如果能對這些冗余成分加以有效削減，就能夠大大節(jié)減圖像的存儲空間，減少圖像傳輸時所占信道容量，使得現有的PC 和網絡在指標和性能方面能夠達到處理圖像信息的要求。沒有壓縮技術的發(fā)展，大容量圖像信息的存儲與傳輸難以適　　1.2 圖像壓縮編碼技術概述　　1.2

20、.1 圖像壓縮編碼技術分類　　圖像壓縮編碼的方法很多，其分類視出發(fā)點不同而有差異。從圖像壓縮技術發(fā)展過程來看，可將圖像壓縮編碼分為兩代，第一代是指20世紀80年代以前的編碼方法，它主要研究有關信息熵、編碼方法以及數據壓縮比等內容。第二代是指20 世紀80 年代以后的編碼方法，它突破了信源編碼理論，結合分形、模型基、神經網絡、小波變換等數學工具，充分利用了人類視覺系統生理特性和圖像信源的各種特性。

21、但由于“第二代”編碼技術增加了分析的難度，所以大大增加了實現的復雜性。從當前發(fā)展情況來看，它仍處于深入研究的階段。　　根據解壓重建后的圖像與原始圖像之間是否有誤差，圖像壓縮編碼分為無損　?。ㄒ渤蔀闊o失真、無誤差、信息保持、可逆壓縮）編碼和有損（有誤差、有失真、　　不可逆）編碼兩大類。無損壓縮中去掉的僅僅是圖像數據

22、中冗余的數據，經解碼重建的圖像和原始圖像沒有任何失真，如哈夫曼編碼、行程編碼、算術編碼；有損壓縮是指解碼重建的圖像與原始圖像相比有失真，不能精確地復原，但視覺效果基本上相同，是實現高壓縮比的編碼方法，如預測編碼、變換編碼。　　1.2.2 圖像壓縮編碼評價　　圖像信號在編碼和傳輸中會產生誤差，尤其是在熵壓縮編碼中，產生的誤差應<

23、;p>　　在允許的范圍內。壓縮方法的優(yōu)劣主要由壓縮比和所恢復的圖像的質量兩個方面來衡量。　　(1)圖像熵　　設數字圖像像素灰度級集合為{d1,d2,……,dn}，其對應的概率分別為p(d1)，　　p(d2)，……,p(dn)。按信息論中信源信息熵的定義，圖像的熵定義為：

24、　　(1) 　　圖像的熵表示像素各個灰度級數據的統計平均值，給出了對輸入灰度級集合進　　行編碼時所需的平均位數的下限。　　(2)平均碼字長度　　設ai 為數字圖像中灰度

25、級di 所對應的碼字長度（二進制代碼的位數），其相應出現的概率為p(di)，則該數字圖像所賦予的平均碼字長度為：　　(2)　　(3)編碼效率　　(3)　　根據

26、信息論中信源碼理論，可以證明在R ≥ H 條件下，總可以設計出某種無　　失真編碼方法。當然如果編碼結果使R 遠大于H，表明這種編碼方法效率很低，占用比特數太多。最好的編碼結果是使R 等于或接近于H。這種狀態(tài)的編碼方法，成為最佳編碼。　　(4)壓縮比　　壓縮比是指編碼前后平均碼

27、長之比，如果用n 表示編碼前每個字符的平均碼　　長，通常為用二進制碼表示時的位數，則壓縮比可表示為：　　(4)　　一般來說，壓縮比大，則說明被壓縮掉的數據量多。一個編碼系統要研究的問　　題是設法減小編碼平均長度R，使編碼效率η盡量趨于

28、1，而冗余度趨于0。　　1.3 哈夫曼編碼簡介　　哈夫曼編碼是根據可變長最佳編碼定理，應用哈夫曼算法而產生的一種編碼方　　法。它是一種無損壓縮編碼方法，其基本原理是出現頻度較高的數據用較短的代碼，出現頻度較低的數據用較長的代碼。這些代碼都是二進制碼，且碼長是可變的。它的實現主要借助于哈夫曼樹。哈夫曼樹，又稱最優(yōu)二

29、叉樹，是一類帶權路徑最短的樹。所有可能的輸入符號在哈夫曼樹上對應為一個葉結點，葉結點的位置就是該符號的哈夫曼編碼。具體來說，一個符號對應的哈夫曼編碼就是從根結點開始，沿左支或右支前進，一直找到該符號所對應的葉結點為止的路徑所產生的二進制編碼。這種編碼是一種無前綴編碼，即，任一字符的編碼都不會是其他字符編碼的前綴，因而數據編碼后在存儲與傳輸的過程中不會產生二義性。假設原始數據中含有k 個各不相同的字符a1，a2，，，ak，所出現的頻率分別

30、為w1，w2，，，wk，則哈夫曼編碼算法[2]如下：　　根據給定的n 個權值{w1，w2，……wn}構成n 棵二叉樹的集合F={T1，T2，……，Tn}，其中每棵二叉樹Ti（i=1，2，……n）中只有一個權值為wi 的根結點，其左、右子樹均為空；　?。?）在F 中選取兩棵結點的權值最小的樹作為左、右子樹，構造一棵新的二<p&

31、gt;　　叉樹，置新二叉樹的根結點的權值為其左、右子樹上根結點的權值之和；　　在F 中刪除這兩棵樹，同時將新得到的二叉樹加入到F 中；　　重復步驟（2）和（3），直到F 中只含一棵樹為止。這棵樹便是哈夫曼樹。　　將哈夫曼樹的左支標0，右支標1，或者左支標1，右支標0（本文采用前一種形式）。然后將從根到葉子的路

32、徑上的標號依次相連，作為該葉子所表示字符的編碼。　　哈夫曼編碼有靜態(tài)和動態(tài)兩類。靜態(tài)哈夫曼編碼是以每個字符出現的概率為權　　值構造哈夫曼編碼樹，字符存在于葉子上，每個字符都有唯一的二進制序列表示，壓縮時，只要壓入相應的哈夫曼編碼即可；解壓時，根據取出的哈夫曼編碼，從根結點出發(fā)，編碼為0時走左子樹，為1時走右子樹，直至葉結點。動態(tài)哈夫曼編碼又稱自適應哈夫曼

33、編碼，它對數據壓縮依據的是動態(tài)變化的哈夫曼編碼樹，具體地說，對第i+1個字符的編碼是根據原始數據中前i個字符所建立哈夫曼編碼樹進行的。　　1.4 本設計所做的主要工作　　由上可知，不論是靜態(tài)哈夫曼編碼還是動態(tài)哈夫曼編碼，其編碼和解碼過程都相對簡單，而如何構造哈夫曼編碼樹成為問題的關鍵。論文分別在第2章、第3章中詳細介紹了靜態(tài)哈夫曼編碼樹和動態(tài)哈夫曼編碼樹

34、的構造方案，并且通過例子演示了構造過程。之后，分別利用這兩種編碼算法實現了圖像的壓縮，并且給出了相應的C語言代碼。第3章最后一節(jié)對兩種編碼方法作了比較。　　另外，由于在構造靜態(tài)哈夫曼樹時，大量的時間消耗在從元素集合中選取兩　　個最小的元素上，因此，在其中引入了堆排序算法，這一改進有效地縮短了壓縮時間，第4章第一節(jié)對這一改進做了介紹。在靜態(tài)哈夫曼編碼算法中

35、，哈夫曼樹的保存占用了大量的空間，而動態(tài)哈夫曼編碼算法，雖然克服了前者的缺點，但是算法復雜，而且解壓縮時間長。因此，在第4章第二節(jié)，根據字符編碼的單值性，對哈夫曼編碼的第二個改進做了介紹，即用一個二維數組模擬哈夫曼樹的創(chuàng)建過程并得到字符的前綴編碼，這一改進有效地提高了壓縮比。　　第二章利用靜態(tài)哈夫曼編碼實現圖像壓縮　　2.1 靜態(tài)哈夫曼編碼介紹<

36、/p>　　哈夫曼編碼是上個世紀五十年代由哈夫曼教授研制開發(fā)的,它借助了數據結構當中的樹型結構,在哈夫曼算法的支持下構造出一棵最優(yōu)二叉樹,我們把這類樹命名為哈夫曼樹. 因此,準確地說,哈夫曼編碼是在哈夫曼樹的基礎之上構造出來的一種編碼形式,它的本身有著非常廣泛的應用.　　那么,哈夫曼編碼是如何來實現數據的壓縮和解壓縮的呢?　　眾

37、所周知,在計算機當中,數據的存儲和加工都是以字節(jié)作為基本單位的,一個西文字符要通過一個字節(jié)來表達,而一個漢字就要用兩個字節(jié),我們把這種每一個字符都通過相同的字節(jié)數來表達的編碼形式稱為定長編碼. 以西文為例,例如我們要在計算機當中存儲這樣的一句話: I am a teacher . 就需要15個字節(jié),也就是120個二進制位的數據來實現.　　與這種定長編碼不同的是,哈夫曼編碼是一種變長編碼. 它根據

38、字符出現的概率來構造平均長度最短的編碼. 換句話說如果一個字符在一段文檔當中出現的次數多,它的編碼就相應的短,如果一個字符在一段文檔當中出現的次數少,它的編碼就相應的長. 當編碼中,各碼字的長度嚴格按照對應符號出現的概率大小進行逆序排列時,則編碼的平均長度是最小的. 這就是哈夫曼編碼實現數據壓縮的基本原理.　　2.2 靜態(tài)哈夫曼編碼樹的構造　　哈夫曼（H

39、uffman）編碼屬于碼詞長度可變的編碼類，是哈夫曼在1952年提出的一種編碼方法，該算法的核心部分為哈夫曼編碼樹（huffman coding tree）一棵滿二叉樹。所有可能的輸入符號（通常對應為字節(jié)）哈夫曼編碼樹上對應為一個葉節(jié)點，在葉節(jié)點的位置就是該符號的哈夫曼編碼。具體來說，一個符號對應的哈夫曼編碼就是從根節(jié)點開始，沿左字節(jié)點（0）或右子節(jié)點（1）前進，一直找到該符號葉節(jié)點為止的路徑對應的二進制編碼。在哈夫曼編碼樹的基礎上，

40、該算法的編碼部分輸入一系列的符號，根據哈夫曼樹對符號進行翻譯，以符號在哈夫曼樹上的位置作為編碼結果。解碼部分反之，根據輸入的哈夫曼編碼，通過查詢哈夫曼樹翻譯回原始符號，即從下到上的編碼方法。同其他碼詞長度可變的編碼一樣，區(qū)別在于不同碼詞的生成是基于不同符號出現的不同概率。生成哈夫曼編碼算法基于一種稱為“編碼樹”（coding tree）的技術。算法步驟如下：　　初始化，根據符號概率的大小按由大到

41、小順序對符號進行排序。　　把概率最小的兩個符號組成一個新符號（節(jié)點），即新符號的概率等于這兩個符號概率之和。　　重復第2步，直到形成一個符號為止（樹），其概率最后等于1。　　從編碼樹的根開始回溯到原始的符號，并將每一下分枝賦值為1，上分枝賦值為0。　　2.3 靜態(tài)哈夫曼編

42、碼的具體編碼過程　　哈夫曼編碼步驟：1）把信源符號xi(i=1,2,… ,N) 按出現概率的值由大到小的順序排列；2）對兩個概率最小的符號分別分配以“0”和“1”，然后把這兩個概率相加作為一個新的輔助符號的概率；3）將這個新的輔助符號與其他符號一起重新按概率大小順序排列；4）跳到第2 步，直到出現概率相加為1 為止；5）用線將符號連接起來，從而得到一個碼樹，樹的N 個端點對應N 個信源符號；6）

43、從最后一個概率為1 的節(jié)點開始，沿著到達信源的每個符號，將一路遇到的二進制碼“0”或“1”順序排列起來，就是端點所對應的信源符號的碼字。由于哈夫曼方法構造出來的碼不是惟一的，主要有兩個原因：一是在兩個符號概率相加給兩條支路分配“0”和“1”時，這一選擇是任意的；二是當兩個消息的概率相等時，0，1 分配也是隨意的。哈夫曼編碼對不同的信源，其編碼效率是不同的。7）哈夫曼編碼中，沒有一個碼字是另一個碼字的前綴。因此，每個碼字惟一可譯。<

44、/p>　　2.4 靜態(tài)哈夫曼編碼的算法實例　　下面我們以 abcddbb 作為待編碼的原始數據串為例，構造靜態(tài)哈夫曼編碼樹。　　首先，我們需要統計出 a, b, c, d 四個符號分別在原始數據串中的出現頻率。統計結果如表 1所示：　　表1 符號出現頻率</b&

45、gt;　　然后，按照前面提到的構造方法，經過表 2 的四個步驟，即可獲得起基于表 1 頻率統計的靜態(tài)哈夫曼編碼樹.　　表2 建立哈夫曼編碼樹　　到此為止，我們建立起了給定符號串的哈夫曼編碼樹。經過編碼a:000,b:1,c:001,d:01，但若a b c d的編碼分別為:0 ,10 ,101 ,11 ,我們得到

46、的壓縮數據為1010 時,那么在解壓縮時就會存在兩種翻譯的可能,一種為bb ,另一種為ca ,為什么會出現這樣的現象呢? 通過觀察我們發(fā)現,字符b 的編碼為10 ,而字符c 的編碼為101 ,b 的編碼恰好是c 的編碼的前兩位,就造成了b 的編碼添加一位就有可能成為c ,這就增加了解壓縮的過程中誤碼的可能. 因為定長編碼已經用相同的位數這個條件保證了任一個字符的編碼都不會成為其它編碼的前綴,所以這種情況只會出現在變長編碼當中,要想避免這

47、種情況,我們就必須用一個條件來制約定長編碼,這個條件就是要想成為壓縮編碼,變長編碼就必須是前綴編碼.　　什么是前綴編碼呢? 所謂的前綴編碼就是任何一個字符的編碼都不能是另一個字符編碼的前綴.那么哈夫曼編碼是否是前綴編碼呢? 觀察a 、b 、c 、d 構成的編碼樹,可以發(fā)現b 之所以成為c 的前綴,是因為在這棵樹上,b 成為了c 的父結點,從在哈夫曼樹當中,原文檔中的數據字符全都分布在這棵哈夫曼樹

48、的葉子位置,從而保證了哈夫曼編碼當中的任何一個字符的編碼都不能是另一個字符編碼的前綴.也就是說哈夫曼編碼是一種前綴編碼,也就保證了解壓縮過程當中譯碼的準確性.　　2.3 利用靜態(tài)哈夫曼編碼壓縮與還原圖像的C語言實現　　2.3.1 壓縮的實現　　(1) 壓縮算法思想　　由于

49、進行的是無損壓縮, 所以要掃描圖像的所有像素點,壓縮過程分為四步:①掃描統計像素出現的概率并按大小排列;②建立最優(yōu)二叉樹;③哈夫曼編碼;④保存編碼。　　經過哈夫曼編碼后的圖像中的不同像素分別用不同長度二進制編碼表示,接下來的工作就是保存重編碼后的像素,由于無損壓縮中編碼前后一幅圖像的像素點數是相同的,如果仍然以像素為單位保存圖像數據就無法實現壓縮功能,能夠實現壓縮是因為編碼前后表示像素的二進制編

50、碼的位數有所變化。所以,應該對重編碼后的二進制位按位存儲。　　(2) 壓縮算法流程圖　　為提高壓縮效率，在靜態(tài)哈夫曼編碼算法中引入了堆排序算法，對于這一改進　　的詳細介紹將在第四章中給出。于是，在靜態(tài)哈夫曼算法的基礎上，根據統計出的概率值，先建堆，再構造編碼樹，然后實現編碼壓縮。其編碼過程如圖2-1所示，其中編碼

51、表的生成過程如圖2-2所示，對字符的編碼過程如圖2-3所示：　　圖2-1 靜態(tài)哈夫曼壓縮流程圖 　　圖2-2 編碼表的生成圖2-3 對字符編碼　　(3) 實現代碼<p&

52、gt;　　詳見附錄：1.靜態(tài)哈夫曼編碼對圖像壓縮的實現代碼　　2.3.2 解壓縮的實現　　(1)解壓算法思想　　壓縮文件的文件結構如表1 在文件頭部分可利用像素與文件頭的偏移量距離位置計算文件頭和全表的長度, 從而得到哈夫曼編碼樹的起始位置。解碼過程:

53、　　(1)指向哈夫曼樹的樹根。　　(2)根據當前一位編碼為0或1從而指向左或右兒子節(jié)點。　　(3)判斷該節(jié)點的左,右兒子是否是空(即為0)不是則向后掃描一個編碼,執(zhí)行上一步,如是則完成一個解碼,該葉子節(jié)點的數組下標即為像素值, 繼續(xù)解下一個。在解碼過程中需要把按位存儲的編碼讀取出來,這個過程就是按位讀取。<

54、p>　　(2)解壓流程圖　　根據靜態(tài)哈夫曼算法，解壓縮過程為壓縮的逆過程。先讀取解壓縮文件頭，獲　　得原文件的長度，字符的編碼長度，字符的個數等信息，再構建解壓縮樹，依次將編碼恢復成原始數據。其總體流程圖如圖2-4所示：　　圖2-4 靜態(tài)哈夫曼解壓縮流程圖</p&

55、gt;　　(3) 實現代碼　　詳見附錄：2.靜態(tài)哈夫曼編碼對圖像解壓的實現代碼　　2.4 圖象壓縮實例　　有一幅800×600的24位位圖，名稱為“Example.bmp”，大小為1.35MB，如圖2-5

56、;　　所示，按照以上算法進行壓縮，圖像熵約為7.259，平均碼字長度為7.292，編碼效率為0.995，壓縮比約為1.096，壓縮后容量為1.25MB，根據第一章第二節(jié)介紹的圖像壓縮編碼評價，以上編碼是最佳編碼，冗余度為0.005。所用時間為0.371s。　　圖2-5 Example.bmp　　其運行界面如圖2-6所示：<

57、p>　　圖2-6 利用靜態(tài)哈夫曼編碼壓縮圖像Example.bmp 的運行界面　　還原之后如圖2-7 所示，大小仍為1.35MB，無失真，所用時間為0.621s，其　　運行界面如圖2-8 所示：　　圖2-7 解壓縮后的圖像　　圖2-8 利用靜態(tài)哈夫曼編碼解壓縮圖像E

58、xample.bmp 的運行界面　　第三章利用動態(tài)哈夫曼編碼實現圖像壓縮　　3.1 動態(tài)哈夫曼編碼的提出　　由上一章可知，靜態(tài)哈夫曼編碼需要對原始數據進行兩遍掃描，第一遍統計原始數據中各字符出現的概率，利用得到的概率值創(chuàng)建哈夫曼樹并將樹的有關信息保存起來，便于解壓時使用，第二遍則根據前面得到的哈夫曼樹對原始數據

59、進行編碼，并將編碼信息存儲起來，便于傳輸。如果將這種方法用于網絡通信中，兩遍掃描勢必會引起較大的延時，如果用于壓縮中，額外的磁盤訪問將會降低該算法的壓縮速度。尤其是對于短小的符號流來說，加上哈夫曼編碼樹的編碼結果之后，它在尺寸上可能更大，這使靜態(tài)哈夫曼編碼的應用受到限制。另外，靜態(tài)編碼樹的構造方案不能對符號流的局部統計規(guī)律變化做出反應，因為它從始至終都使用完全不變的編碼樹。因此，有人提出了自適應哈夫曼編碼方案，即動態(tài)哈夫曼編碼。這種方案

60、不需事先構造哈夫曼編碼樹，而是隨著編碼的進行，逐步構造哈夫曼樹。同時，這種編碼方案對符號的統計也是動態(tài)進行的。這樣就在一定程度上解決了靜態(tài)哈夫曼編碼樹的不足。嚴格的說，動態(tài)哈夫曼編碼不僅涉及到編碼樹的構造問題，還與編碼、解碼過程相關。由于其實用性有了一定的提高，因而應用領域也更加廣泛。　　3.2 動態(tài)哈夫曼編碼的原理　　動態(tài)哈夫曼編碼不需要事先構造哈夫

61、曼樹，而是隨著編碼的進行，逐步構造哈夫曼樹。同時，這種編碼方式對符號的統計也動態(tài)進行，隨著編碼的進行，同一個符號的編碼可能發(fā)生改變（變得更長或更短）。　　在構造動態(tài)哈夫曼編碼數的過程中，需要遵循兩條重要的原則：　?。?）權重值大的節(jié)點，節(jié)點編號也較大。　　（2）父節(jié)點的節(jié)點編號總大于子節(jié)點的節(jié)點編號。</p

62、>　　以上兩點成為兄弟屬性。在每次調整權重值時，都需要相應的調整節(jié)點編號，以避免兄弟屬性被破壞。在對某一個節(jié)點權重值進行“加一操作”時，應該首先檢查該節(jié)點是否具有所在的塊中的最大節(jié)點編號，如果不是，則應該將該節(jié)點的權重值加一。這樣，由于該節(jié)點的節(jié)點編號已經處于原來所屬塊中的最大值，因此權重值加一之后兄弟屬性依然得到滿足。最后由于節(jié)點的權重發(fā)生變化，必須遞歸的對節(jié)點的父節(jié)點進行加一操作。

63、　　初始化編碼樹時，由于只允許對待編碼數據流進行單遍掃描，因此不可能預知各種符號的出現頻率。為了對所有符號一致對待，編碼書的初始狀態(tài)只包含一個葉節(jié)點，包含符號NYT（Not Yet Transmitted,尚未傳送），權重值為0.NYT是一個逸出碼（escape code），不同于任何一個將要傳送的符號。但有一個尚未包含在編碼樹種的符號需要被編碼時，系統就輸出NYT編碼，然后跟著符號的原始表達。當解碼器出一個NYT之后

64、，它就知道下面的內容暫時不再是哈夫曼編碼，而是一個從未在編碼數據流中出現過的原始符號。這樣任何符號都可以在增加到編碼樹之前進行傳送。　　在需要插入一個新符號時，總是先構造一個新的子樹，子樹包含NYT符號與新符號的兩個節(jié)點，然后將舊的NYT節(jié)點由這個子樹代替，由于包含NYT符號的節(jié)點權重值為0，而包含新符號的葉節(jié)點的權重值為1，因此最終效果相當于原NYT節(jié)點位置的權重值由0變?yōu)?.因此，下一步將試

65、圖對其父節(jié)點執(zhí)行權重值“加一操作”。　　動態(tài)哈夫曼編碼的方式與今天哈夫曼編碼一致，每次符號編碼完成后，也對包含符號的節(jié)點權值進行加一操作。　　將一個新的符號插入編碼樹或者輸出摸一個已編碼符號后，相應的符號的出現次數增加1，繼而編碼樹種各種符號的出現頻率發(fā)生了改變，不一定符合兄弟屬性，按照上述方法進行調整，使其符合要求。<p&

66、gt;　　3.3 動態(tài)哈夫曼編碼的算法思想　?。?）初始化編碼樹，即建立一棵只有一個空葉結點的哈夫曼樹，該結點的　　符號為NYT（尚未傳送），權值始終為0；　?。?）每讀進一個字符，首先檢查該字符是否已經在編碼樹中，如果是，就以　　靜態(tài)哈夫曼編碼中相同的方式對其進行編碼，

67、然后更新編碼樹；如果不是，先對空葉結點進行編碼，再生成一棵子樹，其右分支結點為剛讀入的字符，其左分支結點為一個新的空葉結點，然后用這棵子樹代替原來的空葉結點；　　（3）將前i 個字符的哈夫曼樹調整成一棵i+1 個字符的哈夫曼樹，首先，　　以葉結點ai 為初始的當前結點，重復地將當前結點與具有同樣權值的編號最大的結點進行交換，并使得后者的父結點成為新的當前

68、結點，直到遇到根結點為止；其次，將根到葉結點ai 路徑上的所有結點的權值加1，該樹就變成了前i+1 個字符的哈夫曼樹，并且該二叉樹仍是最優(yōu)二叉樹。該算法流程圖如圖3-1 所示：　　圖3-2 動態(tài)哈夫曼編碼算法對一個輸入符號進行編碼并更新編碼樹的流程圖　　3.4 動態(tài)哈夫曼編碼的編碼實例　　下面我們仍以第二章中給出

69、的數據串abcddbb為例，演示動態(tài)哈夫曼編碼樹的　　構造過程，如表3-1所示。　　表3-1 數據串abcddbb的動態(tài)哈夫曼編碼樹的構造過程　　通過觀察以上步驟，容易發(fā)現動態(tài)哈夫曼編碼的幾個特征：　　(1) 在步驟13 得到的編碼樹與靜態(tài)哈夫曼編碼樹基本相同，除了NYT

70、節(jié)點和符號a節(jié)點組成的子樹替代了靜態(tài)哈夫曼編碼樹中的符號a 的葉節(jié)點之外；　　(2) 在每一次輸入新的符號之前，編碼樹都處于完整可用的正常狀態(tài)；　　(3) 同一個輸入符號，可能產生多種不同的輸出。例如三次輸入的符號b，產生的輸出分別為0b、001 和10；　　(4) 同樣的輸出結果，可能由不同的輸入產生。例如第二

71、次輸入的符號d 與第二次輸入的符號b，都產生了001 作為輸出結果。　　這些特征首先說明了動態(tài)哈夫曼編碼樹與靜態(tài)哈夫曼編碼樹等同，完全符合哈夫曼樹的定義。同時，由于每一個輸入符號都對編碼樹產生了影響，因此解碼過程無法從哈夫曼編碼數據流的某一個中間位置開始進行，而必須從頭至尾逐bit 處理。由于動態(tài)哈夫曼編碼算法采用了先編碼，后調整編碼樹的方案，相應的解碼算法比較簡單。解碼算法也使用僅有唯一的NY

72、T 節(jié)點的編碼樹作為初始狀態(tài)，然后根據哈夫曼編碼數據流，對符號進行還原。每次處理完一個符號，就使用這個符號調整編碼樹。這樣，在每一次輸入新的符號之前，哈夫曼樹都處于與進行編碼時使用的哈夫曼樹完全相同的狀態(tài)，保證了解碼的正確性。　　3.5 利用動態(tài)哈夫曼編碼壓縮與還原圖像的C語言實現　　3.5.1 數據結構　　ty

73、pedef struct tree {　　int leaf[SYMBOL_COUNT ];　　int next_free_node;　　struct node {　　unsigned int weight;　　int parent

74、;　　int child_is_leaf;　　int child;　　} nodes[NODE_TABLE_COUNT ];　　} TREE;　　其中l(wèi)eaf[SYMBOL_COUNT ]指明

75、每個字符在哈夫曼樹中葉子結點的位置，它被初始化為-1；next_free_node 指明首次出現的字符插入哈夫曼樹中的位置；weight 指明每個結點的權值；parent 指明該結點的父結點位置；child_is_leaf 指明該結點是否是葉子結點，若是則置child_is_leaf = 0；若不是則置child_is_leaf = 1；child指明該結點是葉結點，則葉子上存放字符的值，否則指明該結點左孩子的位置，其右孩子的位置是ch

76、ild+1；NODE_TABLE_COUNT =( SYMBOL_COUNT * 2 ) - 1。結點符號有258 種可能的取值, 0到255 表示真實的字節(jié)值，256指文件結束標志，257表示空葉結點，用NYT(not yettransmitted)表示，它有兩重含義：其一在編碼流中代表其后跟隨的8 bit 不再是編碼，而是一個新的符號；其二內存中的NYT 結點代表新結點的插入位置。故定義END_OF_STREAM的值為256，定義N

77、YT的值為257，定義SYMBOL_COUNT的值為258。　　3.5.2 壓縮的實現　　(1) 壓縮算法流程圖　　首先，初始化哈夫曼樹，然后，對每一個字符進行兩種操作：編碼，更新哈夫曼樹，當遇到符號END_OF_STREAM時，結束。具體實現過程如圖3-3所示：　　圖3

78、-3 動態(tài)哈夫曼壓縮流程圖　　(2) 代碼實現　　詳見附錄：3．動態(tài)哈夫曼編碼對圖像壓縮的實現代碼　　3.5.3 解壓縮的實現　　(1) 解壓流程圖　　首

79、先，初始化哈夫曼樹，然后，對每一個字符進行兩種操作：解碼，更新哈夫曼樹，直到符號END_OF_STREAM。具體實現過程如圖3-4所示：　　圖3-4 動態(tài)哈夫曼解壓縮流程圖　　(2) 實現代碼　　詳見附錄：4．動態(tài)哈夫曼編碼對圖像解壓的實現代碼<

80、p>　　3.6 圖像壓縮實例　　對于第二章壓縮的圖像，利用上述算法壓縮后，大小為999KB，所用時間為0.77s，　　壓縮比為4.11。運行界面如圖3-5所示：　　圖3-5 利用動態(tài)哈夫曼編碼壓縮圖像Example.bmp的運行界面　　還原之后大小仍為1.35MB，

81、無失真，所用時間為0.871s，運行界面如圖3-6所示：　　圖3-6 利用動態(tài)哈夫曼編碼解壓縮圖像Example.bmp的運行界面　　3.7 靜態(tài)哈夫曼編碼與動態(tài)哈夫曼編碼的比較　　如前所述,靜態(tài)哈夫曼編碼的缺點在于需對原始數據進行兩遍掃描。第一遍　　掃描統計字符出現頻率

82、并建樹，第二遍掃描根據所建哈夫曼樹進行編碼。由此，　　在壓縮時，將會降低壓縮速度。同時，為保存哈夫曼樹以供解壓時用，也將浪費一部分存儲空間。由于靜態(tài)建樹，其壓縮率也有所下降。動態(tài)哈夫曼編碼對數據的壓縮是依據動態(tài)變化的哈夫曼編碼樹，亦即對第i+1個字符的編碼是由原始數據中前i個字符所建立的哈夫曼樹確定。壓縮和解壓子程序具有相同的初始化樹，每處理完一個字符，壓縮和解壓縮使用相同的算法</p&

83、gt;　　更新哈夫曼樹，不必為解壓而保存哈夫曼樹的有關信息，從而大大提高了壓縮率。但是，由于動態(tài)哈夫曼編碼算法在解壓時采用與壓縮時相同的方法建樹，增加了解壓時間，從而降低了還原速度。而靜態(tài)哈夫曼編碼由于對哈夫曼樹進行保存，還原時不必重新建樹,節(jié)省了還原時間。　　下面給出靜態(tài)哈夫曼編碼和動態(tài)哈夫曼編碼在圖像壓縮中的比較，如表3-2&l

84、t;b>　　所示。　　表3-2 靜態(tài)哈夫曼編碼和動態(tài)哈夫曼編碼在圖像壓縮中的比較　　由上表可以看出，當圖像容量小時，雖然利用動態(tài)哈夫曼編碼算法壓縮圖像，　　不用保存哈夫曼樹，從而大大提高了壓縮比，但是針對圖像的特點，大量的時間消耗在了更新編碼樹上，這樣卻延長了壓縮時間和解壓縮時間；當

85、圖像容量大時，一定程度上提高了壓縮比，而且縮短了壓縮時間，但又延長了解壓縮時間。所以在第4 章中將對哈夫曼編碼進行改進，使得這種無損壓縮方法更加實用。　　第四章對哈夫曼編碼的改進　　4.1 在哈夫曼編碼中引入堆排序　　堆排序算法（HEAPSORT）由1991 年計算機先驅獎獲得者、斯坦福大學計算機科學系教授羅

86、伯特·弗洛伊德(Robert W．Floyd)和威廉姆斯(J．Williams)在1964 年共同發(fā)明。堆排序是一樹形選擇排序，堆頂元素是堆中的最大(或最小)元素，且堆的每一條路徑上的元素都是有序的。堆排序正是利用了堆頂元素最大(或最小)這一特征，使得在當前無序區(qū)中選取最大(或最小)關鍵字變得簡單。　　堆排序中的堆分為大頂堆和小頂堆，其中大頂堆指根結點(亦稱為堆頂)的關鍵字是堆里所有關

87、鍵字中最大者的堆。小頂堆指根結點(亦稱為堆頂)的關鍵字是堆里所有關鍵字中最小者的堆。當排序元素不再變化時，利用堆排序可一次求出所需序列。這時，堆排序的時間復雜度恒為O(nlog(n)),不會像其他排序那樣有出入，而且空間復雜度為V(n),是最低的。　　在哈夫曼編碼算法中，為了從R[1..n]中選出兩個頻率最小的元素，需要進行兩趟循環(huán)，每次進行n-1 次比較。事實上，在第二趟的n-1 次比較中，有

88、許多比較可能已經在第一趟循環(huán)中做過，但由于前一趟比較時未保留這些比較結果，所以后一趟排序時又重復執(zhí)行了這些比較操作。而堆排序可通過樹形結構保存部分比較結果，可減少比較次數，從而縮短了壓縮時間。　　在哈夫曼編碼算法中引入堆排序思想后，與靜態(tài)哈夫曼編碼、動態(tài)哈夫曼編碼的比較如表4-1 所示：　　表4-1 引入堆排序后的哈夫曼編碼與靜、動態(tài)哈夫曼編碼的比較&l

89、t;/p>　　4.2 模擬哈夫曼樹的創(chuàng)建　　在靜態(tài)哈夫曼編碼算法中，必須保存統計出的結果以便解碼時構造相同的哈夫曼樹，或者直接保存哈夫曼樹本身，這要占用大量的空間，也就意味著壓縮效率的下降。在動態(tài)哈夫曼編碼算法中，雖然克服了前者的缺點，但是算法復雜，而且解壓縮耗費時間長，若用于通信，就會引起較大的延時。實際上，我們進行壓縮時，所關心的是字符編碼的單值性，基于這種壓縮思

90、想，沒有必要構造哈夫曼樹，用一個二維數組就可以模擬哈夫曼樹的創(chuàng)建過程并得到各字符的編碼。實現思想如下：　　先統計每個編碼長度Ni (二叉樹上的Ni 層) 上對應數據的數目，再分別對Ni 層上的符號以遞增順序分配編碼。最底層編碼從0 開始，第Ni 層第一個編碼為下一層最后一個編碼的左邊Ni 位數+ 1 。　　例如，有一幅圖片Picture.bmp，包含七

91、種顏色，分別為A，B，C，D，E，F，G，其出現概率分別為0.25，0.20，0.18，0.13，0.10，0.09，0.05。按照哈夫曼算法，所得哈夫曼樹如圖4-1所示：　　圖4-1 Picture.bmp的哈夫曼編碼樹　　根據上述實現思想，字符F，G，C，D，E，A，B的編碼分別為0000，0001，0010，0011，010，011，10，11。顯

92、然，這組編碼不能通過哈夫曼樹來建立，但與各個字符的哈夫曼編碼相比，其編碼長度并沒有改變，而且每個字符的編碼也不是其他字符編碼的前綴，同樣可以實現壓縮，且不會產生二義性。另外，通過計算圖像熵和平均編碼長度，由最佳編碼定理知，該編碼仍為最佳編碼。因此，壓縮信息中無須保存哈夫曼樹，只須保存按層遍歷二叉樹所得的符號，以及每層編碼的個數即可。這就使得在整個壓縮、解壓縮過程中所需空間比哈夫曼編碼少得多，從而提高了壓縮比。&l

93、t;p>　　第五章總結　　5.1 總結　　哈夫曼編碼是數據壓縮領域中最著名的編碼方式之一。它通過出現概率的不等性，構造變長編碼，達到減少文件大小的目的。目前廣泛應用的許多其他高效的數據壓縮算法（如算術編碼，可預測編碼等）也是在哈夫曼編碼的基礎上發(fā)展起來的。所以，研究哈夫曼

94、編碼，對于深入理解數據結構、程序設計等學科中的相關課題是十分有益的。特別是對動態(tài)哈夫曼編碼的探索以及對整個哈夫曼算法的改進，盡可能使程序穩(wěn)定、快速、高效地運行，充分體現了對軟件時空需求進行優(yōu)化和權衡的思想。　　本設計從分析靜態(tài)哈夫曼編碼開始，逐步過度到動態(tài)哈夫曼編碼的實現，最后通過對兩者的比較，又對哈夫曼算法提出了一些可行的改進。但也存在一些不足，如動態(tài)哈夫曼編碼的C 語言實現還不夠精練，選取的

95、圖像材料說服力不強等。并且在壓縮時間和壓縮比上不能做到十全十美，總要舍棄一頭顧一頭的感覺，三者之間的平衡點不知道怎么去找，而且就現有問題自己弄得有點焦頭爛額，如果有時間的話以后再對這方面的問題進行詳細的研究，算法的改進，我覺得是可以找到一個能兼顧三者優(yōu)點的算法。　　最后，在對哈夫曼編碼的研究過程中，經過不斷查資料、調程序，我對C語言以及哈夫曼編碼有了更深的了解，對圖像處理方面的知識有了一定的掌握

96、，對算法設計及實現有了深刻的理解和體會，從開始的不知道哈夫曼編碼是什么，如何變，為什么編碼，如何應用，到現在掌握基礎的一些知識外還在此之上更深入的了解哈夫曼編碼，圖樣處理，以及堆的定義。另外，我深深的體會到了搞研究不僅需要知識，更重要的是耐心、恒心和細心。期間，受到了許多朋友和老師的幫助，從他們那兒也學到很多知識，知道了腳踏實地、謙虛認真、心平氣和是一個研究者所應具備的基本素質。這些都使我受益匪淺。讓我在今后的學習工作當中更好的去成長，

97、更快的去具備一個國家所需人才應有的素質和本領。　　致謝　　做論文歷時5個月，整篇論文從起草修改到定稿遇到了很多的困難，各種各樣的技術難題，從最開始的不知道何為哈夫曼編碼到后來能掌握它的應用原理這都得感謝我的指導老師xx老師不厭其煩的指導，雖然沒有手把手的教，但是給我了大概的方向，讓我自己去琢磨怎么做，在不停琢磨中不斷

98、的提升自我，鍛煉了我各個方面的能力，讓我受益匪淺，而且私下里同學的幫助也是很多的，要感謝xx同學在論文修改方面提出的各方面建議，再要感謝xx同學提供的技術支持，現在真正理解了啥叫眾人拾柴火更旺的道理，這篇論文的制作讓我在各個方面都收獲了不少。　　參考文獻　　[1]邵天增，冬尚娟.[M]哈夫曼編碼應用的一種改進.上海市

99、：華東師范大學 2008,31-56　　[2]鹿璐.[M]哈夫曼編碼器軟硬件系統的設計與實現.北京市：交通部管理干部學院,2010,22-73　　[3] 數據結構與算法分析,.Cli?ord A. Sha?er, 張銘、劉曉丹譯. 電子工業(yè)出版社, 1998,100-125[4]吳樂南. 數據壓縮(第一版)[M].北京:電子工業(yè)出版社,200

100、0:1-118 [5]馮斐玲.數據壓縮技術的一般方法[J].計算機世界報,1994, 15:58-65 　　[6]王防修,周康.通過哈夫曼編碼實現文件的壓縮與解壓[J].武漢工業(yè)學院學　報,2008,1-3　　[7]康洪波.靜態(tài)哈夫曼編碼的原理及應用[J].河北建筑工程學院學報,2009,2-3</p&g

101、t;　　[8]于麗娟.哈夫曼編碼及在數字電視廣播中的應用[J].山西電子技術報，2005,1-2　　[9]王群芳.哈夫曼編碼的另一種實現算法[J].安徽教育學院學報,2006,2-3　　[10] Introduction to Data Compression, 2nd Edition, Sayood Khalid, 2000.56

102、-87　　[11]Jeffrey Scott Vitter，Brown University,Algorithm 673 Dynamic Huffman Coding(October 1988).34-56　　[12] Salomon,D A Concise Introduction to Data Compression(March, 2008).23

103、-87　　[13] Adaptive Hu?man Compression,AdaptiveHuff.html, Ze-Nian Li, 2006.12-64　　[14]Lan H. Witten, Alistair Moffat, Timothy C. Bell, 梁斌(譯), 深入搜索引擎, 北京: 電子工業(yè)出版社, 2009, 44-51, 421

104、-432.　　附錄　　1.靜態(tài)哈夫曼編碼對圖像壓縮解壓的實現代碼　?。?）壓縮主函數　　int Huffman_Compression(char * infilename, char * outf

105、ilename)　　{　　if ((ifile = fopen (infilename, "rb")) != NULL)　　{　　fseek (ifile, 0L, 2);&l

106、t;/p>　　file_size = (unsigned long) ftell (ifile); //獲得文件的大小　　fseek (ifile, 0L, 0);　　Get_frequency_count (); //統計字符頻率　　Build_initial_heap (); //

107、建立初始堆　　Build_code_tree (); //構造編碼樹　　if (!Generate_code_table ()) //產生編碼表　　{　　printf ("ERROR! Cannot Compress.\n&

108、quot;);　　return 0;　　}　　else　　{　　if ((of

109、ile = fopen (outfilename, "wb")) != NULL)　　{//寫文件頭　　fwrite (&file_size, sizeof (file_size), 1, ofile);　　fwrite (code, 2, 256

110、, ofile);　　fwrite (code_length, 1, 256, ofile);　　fseek (ifile, 0L, 0);　　Compress_image (); //壓縮數據　　fclose (ofile);&

111、lt;b>　　}　　else　　{　　printf("\nERROR: Couldn't create output file %s\n", outfilename);</p&g

112、t;　　return 0;　　}　　}　　fclose (ifile);　　}

113、　　else　　{　　printf ("\nERROR: %s -- File not found!\n", infilename);　　return 0;&

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

哈夫曼編碼的實現及應用畢業(yè)論文

文檔簡介

溫馨提示

最新文檔

評論

哈夫曼編碼的實現及應用畢業(yè)論文

文檔簡介

溫馨提示

最新文檔

評論

免費下載