1、準備知識windows
一、Huffman樹數組
Huffman樹是一類帶權路徑長度WPL最短的二叉樹,中文名叫哈夫曼樹或最優二叉樹。緩存
相關概念:函數
結點的路徑長度:從根結點到該結點的路徑上分支的數目。測試
樹的路徑長度:樹中每一個結點的路徑長度之和。編碼
樹的帶權路徑長度:樹中全部葉子結點的帶權路徑長度之和。spa
構造Huffman樹的步驟:.net
1) 根據給定的n個權值,構造n棵只有一個根結點的二叉樹,n個權值分別是這些二叉樹根結點的權;指針
2) 設F是由這n棵二叉樹構成的集合,在F中選取兩棵根結點權值最小的樹做爲左、右子樹,構形成一顆新的二叉樹,置新二叉樹根結點的權值等於左、右子樹根結點的權值之和。爲了使獲得的哈夫曼樹的結構惟一,規定根結點權值最小的做爲新二叉樹的左子樹。code
3) 從F中刪除這兩棵樹,並將新樹加入F;
4) 重複2)、3)步,直到F中只含一棵樹爲止,這棵樹即是Huffman樹。
說明:n個結點須要進行n-1次合併,每次合併都產生一個新的結點,最終的Huffman樹共有2n-1個結點。
二、Huffman編碼
Huffman樹在通信編碼中的一個應用:
利用哈夫曼樹構造一組最優前綴編碼。主要用途是實現數據壓縮。在某些通信場合,需將傳送的文字轉換成由二進制字符組成的字符串進行傳輸。
方法:
利用哈夫曼樹構造一種不等長的二進制編碼,而且構造所得的哈夫曼編碼是一種最優前綴編碼,使所傳電文的總長度最短。
不等長編碼:即各個字符的編碼長度不等(如:0,10,110,011),可使傳送電文的字符串的總長度儘量地短。對出現頻率高的字符采用盡量短的編碼,則傳送電文的總長度便儘量短。
前綴編碼:任何一個字符的編碼都不是同一字符集中另外一個字符的編碼的前綴。
2、代碼實現
使用鏈表結構構建哈夫曼樹並進行編碼、解碼,代碼以下:
- #include <stdio.h>
- #include <stdlib.h>
- #include <string.h>
-
- typedef int ELEMTYPE;
-
- typedef struct HuffmanTree
- {
- ELEMTYPE weight;
- ELEMTYPE id;
- struct HuffmanTree* lchild;
- struct HuffmanTree* rchild;
- }HuffmanNode;
-
- HuffmanNode* createHuffmanTree(int* a, int n)
- {
- int i, j;
- HuffmanNode **temp, *hufmTree;
- temp = malloc(n*sizeof(HuffmanNode));
- for (i=0; i<n; ++i)
- {
- temp[i] = (HuffmanNode*)malloc(sizeof(HuffmanNode));
- temp[i]->weight = a[i];
- temp[i]->id = i;
- temp[i]->lchild = temp[i]->rchild = NULL;
- }
-
- for (i=0; i<n-1; ++i)
- {
- int small1=-1, small2;
- for (j=0; j<n; ++j)
- {
- if (temp[j] != NULL && small1==-1)
- {
- small1 = j;
- continue;
- } else if(temp[j] != NULL)
- {
- small2 = j;
- break;
- }
- }
-
- for (j=small2; j<n; ++j)
- {
- if (temp[j] != NULL)
- {
- if (temp[j]->weight < temp[small1]->weight)
- {
- small2 = small1;
- small1 = j;
- } else if (temp[j]->weight < temp[small2]->weight)
- {
- small2 = j;
- }
- }
- }
- hufmTree = (HuffmanNode*)malloc(sizeof(HuffmanNode));
- hufmTree->weight = temp[small1]->weight + temp[small2]->weight;
- hufmTree->lchild = temp[small1];
- hufmTree->rchild = temp[small2];
-
- temp[small1] = hufmTree;
- temp[small2] = NULL;
- }
- free(temp);
- return hufmTree;
- }
-
- void PrintHuffmanTree(HuffmanNode* hufmTree)
- {
- if (hufmTree)
- {
- printf("%d", hufmTree->weight);
- if (hufmTree->lchild != NULL || hufmTree->rchild != NULL)
- {
- printf("(");
- PrintHuffmanTree(hufmTree->lchild);
- printf(",");
- PrintHuffmanTree(hufmTree->rchild);
- printf(")");
- }
- }
- }
-
- void HuffmanCode(HuffmanNode* hufmTree, int depth)
- {
- static int code[10];
- if (hufmTree)
- {
- if (hufmTree->lchild==NULL && hufmTree->rchild==NULL)
- {
- printf("id爲%d權值爲%d的葉子結點的哈夫曼編碼爲 ", hufmTree->id, hufmTree->weight);
- int i;
- for (i=0; i<depth; ++i)
- {
- printf("%d", code[i]);
- }
- printf("\n");
- } else
- {
- code[depth] = 0;
- HuffmanCode(hufmTree->lchild, depth+1);
- code[depth] = 1;
- HuffmanCode(hufmTree->rchild, depth+1);
- }
- }
- }
-
- void HuffmanDecode(char ch[], HuffmanNode* hufmTree, char string[])
- {
- int i;
- int num[100];
- HuffmanNode* tempTree = NULL;
- for (i=0; i<strlen(ch); ++i)
- {
- if (ch[i] == '0')
- num[i] = 0;
- else
- num[i] = 1;
- }
- if(hufmTree)
- {
- i = 0;
- while(i<strlen(ch))
- {
- tempTree = hufmTree;
- while(tempTree->lchild!=NULL && tempTree->rchild!=NULL)
- {
- if (num[i] == 0)
- {
- tempTree = tempTree->lchild;
- } else
- {
- tempTree = tempTree->rchild;
- }
- ++i;
- }
- printf("%c", string[tempTree->id]);
- }
- }
- }
-
- int main()
- {
- int i, n;
- printf("請輸入葉子結點的個數:\n");
- while(1)
- {
- scanf("%d", &n);
- if (n>1)
- break;
- else
- printf("輸入錯誤,請從新輸入n值!");
- }
-
- int* arr;
- arr=(int*)malloc(n*sizeof(ELEMTYPE));
- printf("請輸入%d個葉子結點的權值:\n", n);
- for (i=0; i<n; ++i)
- {
- scanf("%d", &arr[i]);
- }
-
- char ch[100], string[100];
- printf("請連續輸入這%d個葉子結點各自所表明的字符:\n", n);
- fflush(stdin);
- gets(string);
-
- HuffmanNode* hufmTree = NULL;
- hufmTree = createHuffmanTree(arr, n);
-
- printf("此哈夫曼樹的廣義表形式爲:\n");
- PrintHuffmanTree(hufmTree);
- printf("\n各葉子結點的哈夫曼編碼爲:\n");
- HuffmanCode(hufmTree, 0);
-
- printf("要解碼嗎?請輸入編碼:\n");
- gets(ch);
- printf("解碼結果爲:\n");
- HuffmanDecode(ch, hufmTree, string);
- printf("\n");
-
- free(arr);
- free(hufmTree);
-
- return 0;
- }
運行結果如圖:
3、程序實現過程中遇到的問題總結
1)關於哈夫曼樹,知道了葉子結點,如何不用靜態數組存儲整個哈夫曼樹及構建過程當中的生成樹?
答:使用malloc函數開闢一段內存空間存結構體類型的樹,若往樹中添加新的結點掛在結構體指針上便可,這就要求定義的結構體裏面包含結構體指針,這也是結構體指針的做用。也就是使用鏈表動態存儲,每一個結點都是一個包含結構體指針的結構體,生成過程當中動態開闢,無論這棵樹有多少個結點均可以存下。
2)
- typedef struct stHuNode
- {
- int data;
- struct stHuNode* lchild;
- struct stHuNode* rchild;
- }HUNODE;
3)scanf語句裏不要有換行符?scanf函數的用法,scanf(" %d", &i);和scanf("%d ",&i);效果不一樣,差異在哪?
答:scanf函數的通常形式爲:scanf(「格式控制字符串」, 地址表列);格式控制字符串中不能顯示非格式字符串,也就是不能顯示提示字符串和換行符。」 %d」 和「%d」做用同樣,%d前面的空格不起做用,」%d 「空格加在%d後面賦值時要多輸入一個值,實際賦值操做時多輸入的數並無被賦值只是緩存到了輸入流stdin中,下次若是再有scanf和gets語句要求賦值時,要先用fflush(stdin);語句強制清除緩存再賦值,不然原先在stdin中的值就會被賦過去致使錯誤。
4)靈感:怎樣解碼?根據輸入的01串解出相應的權值?
答:No!若是兩個不一樣的字符對應的權值相同呢?如何區分?起初想到若是在創建哈夫曼樹的過程當中能夠記錄下相應的下標就不會致使相同權值沒法區別的問題,但在具體如何實現上,剛開始想輸出每一次建樹的small1和small2,但發現這樣很不清晰,用戶要想肯定每一個字符的下標得按照建樹過程走一遍才行,那要程序何用,並且給用戶形成了很大的麻煩,不可取。後來想到,能夠在結點的結構體中添加id信息,這樣即便權值相同的結點也能夠區分開來,h5房卡源碼h5.mostsheng.com這裏的id能夠是下標,由於用戶輸入權值的順序必定則下標惟一。若是解碼解出來的是權值標號的話就沒有異議了,但是下標又不是很直觀清晰,不如直接輸出相應的字符好,又想到兩個解決辦法:a)將結點id信息直接定義成字符,只不過在建樹的過程當中要將字符和權值都加入結點中;b)id仍然是下標,在用戶輸入權值對應的字符時,用字符數組存儲並和id對應起來,這樣解碼獲得id以後,能夠輸出對應的字符,實現起來相對比較簡單。
5)疑問:若是根據用戶輸入的字符串進行編碼解碼獲得了新的字符串,舊字符串和新字符串有沒有直接看出來的規律,就是說人眼觀察和推導可否獲得相應的規律,或者說有沒有可能直接能得出規律不用通過編碼解碼。留爲疑問!
答:後經測試發現不行。
6)gets()函數的用法,如何獲取一個字符串,賦值時跳過gets()函數的執行,貌似gets()沒起做用的問題。
答:當使用gets()函數以前有過數據輸入,而且,操做者輸入了回車確認,這個回車符沒有被清理,被保存在輸入緩存中時,gets()會讀到這個字符,結束讀字符操做。所以,從用戶表面上看,gets()沒有起做用,跳過了。
解決辦法:
方法1、在gets()前加fflush(stdin); //強行清除緩存中的數據(windows下可行)
方法2、根據程序代碼,肯定前面是否有輸入語句,若是有,則增長一個getchar()命令,而後再調用 gets()命令。
方法3、檢查輸入結果,若是獲得的字符串是空串,則繼續讀入,如:
- char str[100]={0};
- do {
- gets(str);
- } while( !str[0] );
7)初始化數組語句:memset(str,0, sizeof(str)); 理解一下!
答:函數解釋:將 str 中前 n 個字節用 ch 替換並返回 str。memset(str, 0, sizeof(str));意思是將數組str的長度(字節數,不是元素個數)置零。
memset:做用是在一段內存塊中填充某個給定的值,它是對較大的結構體或數組進行清零操做的一種最快方法。
8)關於strlen()函數
答:strlen函數的用法,包含頭文件string.h。且是對字符數組中的字符串求長度!
其原型爲: unsigned int strlen (char *s);
【參數說明】s爲指定的字符串。
strlen()用來計算指定的字符串s 的長度,不包括結束字符"\0"。
【返回值】返回字符串s 的字符數。
注意:strlen() 函數計算的是字符串的實際長度,遇到第一個'\0'結束。若是你只定義沒有給它賦初值,這個結果是不定的,它會從首地址一直找下去,直到遇到'\0'中止。而sizeof返回的是變量聲明後所佔的內存數,不是實際長度,此外sizeof不是函數,僅僅是一個操做符,strlen()是函數。