CCSとCEFとCESと

前回の続きの解説なのです。

ただ、UTFの所では、encoding form と encoding scheme が区別して書いてあり、実装というか byte sequence で表現する方法は encoding scheme という扱いだ。そして、バイト列にする前の scalar な値で表現する方法が encoding form。

http://d.hatena.ne.jp/otn/20090326/p1

まず、CCSとかCEFとかCESとかいう語はUTR#17: Unicode Character Encoding Modelで定義されています。で、どう違うかというと、以下のような感じです。

CCS
文字とUnicode scalar value (整数, コードポイント)
CEF
文字とcode units (ビット組み合わせ)
CES
文字とバイト列