カテゴリー
ERP-BusinessExpress 用語集

UTF-8

読み方 : ユーティーエフハチ
フルスペル : 8-bit UCS Transformation Format

UCS-2やUCS-4(Unicode)で定義される文字集合を用いて記述された文字列をバイト列(数値の列)に変換する方式の一つ。UTF-8では1文字を1~6バイトの可変長の数値(バイト列)に変換するようになっているが、現在定義されているUnicode文字をUTF-8で表現した場合、最長で4バイトのバイト列に変換される。

UTF-8では、Unicodeの最初の128文字(UCS-2でいうU+0000からU+00FF)を変換した結果がASCIIとまったく同じになるため、従来の処理システムとの親和性が高いという特長がある。一方、日本語などの文字は元々2バイトだったものが3バイトや4バイトで表現されてしまうため、UTF-16と比べてデータサイズが大きくなってしまうという欠点がある。
ちなみに、UTF-16ではUCS-4を完全に表現することはできないが、理論上はUTF-8はUCS-4を完全に表現できる。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です