ハフマン符号化とは

2025年6月12日

YouTube

1 ハフマン符号化
- 1.1 符号化とは
- 1.2 ハフマン符号化とは
2 ハフマン符号化の手順

ハフマン符号化

ハフマン符号化とは、1952年にデビッド・ハフマン（David Albert Huffman）氏によって開発された符号で、データの可逆圧縮などに使用されるものです。

可逆圧縮は元に戻すことができる圧縮のことです。

符号化とは

符号化とは、データを「0」と「1」の2進数に置き換えることです。

コンピュータが扱う最小単位のことをビット（bit）といい、1ビットで表現できる数字は「0」と「1」の2つだけです。この「0」と「1」という2個の数字で数をあらわすのが2進数です。

そのため、コンピュータに処理をさせるにはデータを2進数に変換する必要があります。この作業が符号化です。

例えば「ABCD」という文字を次のような2ビットのデータに置き換えるものとします。

その場合「ABC」という文字は「000101」に置き換えることができます。これが符号化です。

ただし、符号化には処理効率の面からできるだけ少ないビット数で2進数へ変換することが求められます。データ量が少なくなれば、その分メモリの使用量が減り処理を高速に処理することができます。

符号化の作業で、できるだけ少ないビット数で2進数へ変換する方法の1つがハフマン符号化です。

ハフマン符号化とは

ハフマン符号化とは、データの出現頻度に着目した圧縮方法です。

例えば「ABAAACBDBA」という文字列を下記表のルールで符号化すると「00010000001001110100」です。（20ビット ※圧縮しない場合）

文字	符号
A	00
B	01
C	10
D	11

これに対して「ABAAACBDBA」という文字列を下記表のハフマン符号化で圧縮すると「01000011010111100」の17ビット（※ハフマン符号化で圧縮した場合）となり、今回の例では85%の圧縮率です。（圧縮率は文字の出現頻度により変わる）

文字	出現頻度	符号
A	5回	0
B	3回	10
C	1回	110
D	1回	111

それでは、ハフマン符号化の手順を説明していきます。

ハフマン符号化の手順

ハフマン符号化では、ハフマン木と呼ばれる木構造を用いて符号化します。

次の1～3の手順でハフマン木を作成し、4、5の手順で対応表を作成します。

[手順1] 各データを出現頻度の高いに並べる

まずは各データを出現頻度の高い順に並べます。

今回の例では「ABAAACBDBA」のデータをハフマン符号化で符号化します。Aが5回、Bが3回、CとDが1回出現しているので、出現頻度の高い順（A、B、C、D）に並べます。

[手順2] 最も出現頻度の低い2つを1つにする

出現頻度の高い順に並べた後は、最も出現頻度の低い2つをつなぐ「親」を作り1つにします。

今回の例では「C」と「D」が最も出現頻度が低いので、2つを繋ぐ「親CD」を作ります。

[手順3] 手順2を繰り返して木構造を完成させる

次に最も出現頻度が低い2つは「B」と「CD」なので、「B」と「CD」をつなぐ「親BCD」を作ります。

次に最も出現頻度が低い2つは「A」と「BCD」なので、「A」と「BCD」をつなぐ「親ABCD」を作ります。

これ以上つなぐものがないので終了です。

これで木構造（ハフマン木）は完成です。

[手順4] 作成した木構造に「0」と「1」を割り振る

最後に作成した木構造に「0」と「1」を割り振ります。今回の例では左に「0」、右に「1」を割り振っています。（左に「1」、右に「0」でもOK）

[手順5] 木構造から文字と符号の対応表を作る

手順1～手順4で作成した木構造を上から順にたどっていくことで、下記のような文字と符号の対応表を作成することができます。

Aは「ABCD」→「A」なので「0」
Bは「ABCD」→「BCD」→「B」なので「10」
Cは「ABCD」→「BCD」→「CD」→「C」なので「110」
Dは「ABCD」→「BCD」→「CD」→「D」なので「111」

[文字と符号の対応表]

文字	出現頻度	符号
A	5回	0
B	3回	10
C	1回	110
D	1回	111

この対応表どおりに符号化すると「ABAAACBDBA」という文字列を「01000011010111100」に変換することができます。

まとめ

符号化とはデータを「0」と「1」の2進数に変換すること
ハフマン符号化はデータの出現頻度に着目して、できるだけ少ないビット数で2進数へ変換する方法

helpful

この記事は役に立ちましたか？

-コンピュータ
-ハ

comment コメントをキャンセル

2024/12/8

ログファイルとは？

ログファイルログファイルとはログファイルとは、コンピュータシステムにおける処理や操作、イベントなどの履歴を記録したファイルのことです。ログファイルには、日付や時刻、実行されたプログラムの詳細、エラーメッセージ、ユーザーアクションなどが記録されます。そのため、システムに問題が発生した場合、ログファイルを確認すれば、ユーザーがどのような操作をしたのか確認できます。例えば、アプリケーションに問題が発生した場合、アプリケーションが出力しているログファイルを確認することで、アクセスしたユーザーの情報や発生し ...

2025/3/5

ホスト名とは | 分かりやすく図解で解説

ホスト名ホスト名とはホスト名（英：hostname）とは、ネットワークに接続されたコンピュータなどの機器を識別するための名前のことです。ネットワーク上での通信は、IPアドレスと呼ばれるインターネット上の住所を使います。IPアドレスは数字の羅列なので人間にとって分かりにくいものです。そのため、通信先をIPアドレスではなく英数字で「www.yahoo.co.jp」などと表記します。これが「ホスト名」です。例えば、「www.yahoo.co.jp」というドアドレスでは、「www」あるいは「www.ya ...

2024/12/11

ジャーナルファイルとは | 分かりやすく図解で解説

ジャーナルファイルジャーナルファイルとはジャーナルファイルとは、システムの運用状況を、定期的かつ自動的に記録したファイルのことです。システム稼働中の変更履歴などを記録したファイルで、システム障害やデータ喪失などが発生した際に、原因究明や復旧のために使用します。ジャーナルは、ログと同義語として扱われることがありますが、ログは操作の履歴（システム稼働中に発生した事象に関する情報を記録）を記録したものです。それに対し、ジャーナルは「システム稼働中に発生した変更履歴の記録」を指すことが多いです。ジャー ...

2024/3/7

相対パスとは

相対パスパスとはパスとは、パソコンの中に保存されているファイルやディレクトリ（フォルダ）の保存場所を示す経路のことです。ディレクトリという呼び方は主にUNIX系のOSで使われている言葉であり、WindowsやMacの場合は「ディレクトリ」ではなく「フォルダ」と呼ばれています。パスには「絶対パス」と「相対パス」があります。関連記事》絶対パスとは相対パスとは相対パス（英：relative path）とは、カレントディレクトリ（カレントフォルダ）を基準にして、目的のディレクトリ（フォルダ）やファ ...

2024/2/21

フォルダパスとは

フォルダパスフォルダパスとはフォルダパス（英：folder path）は、WindowsやMacで特定のフォルダの所在を表す文字列のことです。フォルダとは、コンピューター上でファイルなどを入れる「入れ物」のことです。フォルダはWindowsやMacの呼び方で、UNIX系のOSではディレクトリと呼ばれています。コンピュータ上のフォルダやファイルは、次のような階層構造で管理されています。この階層構造でフォルダがどこにあるのかを示す情報が「フォルダパス」です。例えば、Windowsの場合「C:￥ho ...

2024/2/21

ディレクトリパスとは

ディレクトリパスディレクトリパスとはディレクトリパス（英：directory path）とは、パソコンの中に保存されているディレクトリの所在を表す文字列のことです。 Memo ディレクトリとは、コンピューター上でファイルなどを入れる「入れ物」のこと。UNIX系OSの呼び方で、WindowsやMaxの場合はフォルダと呼ぶ。コンピュータ上のディレクトリやファイルは、次の図のような階層構造で管理されています。この階層構造でディレクトリがどこにあるのかを示す情報が「ディレクトリパス」です。例えば、UNI ...

真理値表とは

【Spring Boot】Thymeleafでプルダウンを作成する方法