読者です 読者をやめる 読者になる 読者になる

Test Encoding Converter

先日のCitrus iconvのテストで用いたスクリプトでは、重複符号化された文字についてのチェックは行われていませんでした。
そこで、今回改めて、IBMICUPerlのEncodeモジュールで用いられている、ucm形式のファイルを読み込んでチェックするようにしてみました。ucm形式では片方向の変換を定義できるので、CP932/eucJP-msのようにフクザツなencodingをテストするには最適ですから。(UCS正規化前提ではあるが)
Encodeに添付されているcp932.ucmやEncode-EUCJPMS-0.05のcp51932.ucmは、U+0080, U+F8F0 - U+F8F3といったものも変換が定義されているので、それらはテストするようにもしないようにも出来るようにしています。

追記:現在、U+00A1-U+00FFまでの変換は蹴っていますが、これも対応した方がいいのでしょうかね・・・。見るとどうも微妙な感があるのですが・・・。