Codificação de Huffman: Compactação com Probabilidades de Símbolos | Notas de aula Economia

A Codificação de Huffman

A codificação de Huffman é um método de compactação que usa as probabilidades de

ocorrência dos símbolos no conjunto de dados a ser compactado para determinar códigos de

tamanho variável para cada símbolo.

ASCII e a codificação

ASCII (

American Standard Code for Information Interchange

) é um padrão de codificação de

caracteres usado por muitas linguages de programação. Neste padrão, cada caracter é

codificado com o mesmo número de bits por caracter (e.x., 8 bits). Desta maneira, há 256

) possíveis combinações para representar os caracteres em ASCII. Os caracteres mais

comuns, como os alfanuméricos, pontuação e caracteres de controle usam apenas 7 bits. 128

) caracteres diferentes podem ser codificados com 7 bits. A codificação de Huffman

compacta os dados usando um número menor de bits para codificar caracteres que ocorrem

mais frequentemente de maneira que nem todos os caracteres precisem ser codificados com 8

bits.

Considere a string “

bom esse bombom

”. Usando a codificação ASCII (8 bits por character), os

16 caracteres dessa string usam 128 bits. A tabela a seguir ilustra como a codificação

funciona. Char ASCII Binário

b 98 0110 0010

o 111 0110 1111

m 109 0110 1101

e 101 0110 0101

s 115 0111 0011

Espaço 32 0010 0000

A string “bom esse bombom” seria escrita numericamente assim: 98 111 109 32 101 115 115

101 32 98 111 109 98 111 109. Em binário, seria assim: 0110 0010 0110 1111 0110 1101

0010 0000 0110 0101 0111 0011 0111 0011

0110 0101

0010 0000 0110 0010 0110 1111

0110 1101 0110 0010 0110 1111 0110 1101.

Considere agora que estamos utilizando uma codificação baseada em 3-bits por caracter:

Char Binário

b 0 000

o 1 001

m 2 010

e 3 011

s 4 100

Espaço 5 101

A string seria numericamente escrita assim: 0 1 2 5 3 4 4 3 5 0 1 2 0 1 2 e em binário: 000

001 010 101 011 100 100 011 101 000 001 010 000 001 010.

Usando 3-bits por caracter, a string “bom esse bombom” usa um total de 48 bits ao invés de

128. A “economia” de bits poderia ser ainda maior se usarmos menos de 3 bits para codificar

caracteres que aparecem mais vezes (b, o, m ) e mais bits para caracteres que aparecem

menos vezes (e, s). Essa é a idéia básica da codificação de Huffman: usar menor número de

bits para representar caracteres com maior frequencia. Essa técnica pode ser implementada

usando uma árvore binária que armazena caracteres nas folhas, e cujos caminhos da raiz até

as folhas provêm a sequência de bits que são usados para codificar os respectivos caracteres.

Codificação de Huffman: Compactação com Probabilidades de Símbolos, Notas de aula de Economia

Documentos relacionados

Pré-visualização parcial do texto

Baixe Codificação de Huffman: Compactação com Probabilidades de Símbolos e outras Notas de aula em PDF para Economia, somente na Docsity!

A Codificação de Huffman