Unicode正規化について

Unicode正規化

NFC (Normalization Form C), NFD (Normalization Form D), NFKC (Normalization Form KC) ,NFKD (Normalization Form KD)とある。

CはComposition。つまり、合成して完成形にする。
DはDecomposition。つまり、分解する。
KはCompatibility。つまり、互換文字を用いる。(逆に言えばKでない場合は互換文字を正規化してしまう)

http://homepage1.nifty.com/nomenclator/unicode/normalization.htm
http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html
http://www.unicode.org/reports/tr15/
http://www.w3.org/International/charlint/charlint.pl

UTF-8-MAC

普通はNFCするのだが、MacOSXでは、UTF-8をNFDしてから扱う。
なお、この「普通」とはWindowsがという意味ではなく、
例えばpunycode前の正規化でも、用いられるのはNFCである。

目立つものは濁点と拗音がひらがなから分離してしまうもの。