その他

golfでもつかえるような指定を

locale が UTF-8 になっている前提なら、何も指定する必要ないはず。リテラルがある場合は #ruby -Ku で。なので、$KCODE よりは短くなるかも。

1.8 互換モードを用意した方がよかったりしないかな

  • K がソレです。

リガチャー(合字)ってどうなってるんだろう?

まったく考えていないので、2 文字になります。その辺は 1.9 ではやりません。

正規表現

statefulなencodingをregexpにかけるとどうなるんだろう

stateful な encoding は名前を知っているだけなので、期待通りには動きません。・・・というか、エラーを出すべきな気がするなぁ。

UTF-8スクリプトでバイナリ正規表現リテラルを書くには? /.../n でいい?

/.../n や Regexp.new("...".force_encoding("ASCII-8BIT") かな。

エンコーディングのテストについて

15:24 (mame) そういえばエンコーディングに関しては
15:24 (mame) 日本語以外のテストがろくに書けていないという現状なので
15:24 (mame) 中国語とか韓国語とかキリル文字とか
15:24 (mame) それらの文字コード事情とかに詳しい人がいたら
15:24 (mame) 活躍をしてください

してください、お願いします。

文字コードとして不正なバイト列は、正規表現リテラルはエラーだけど、文字列リテラルはエラーにならないんだね…。

正規表現は鬼車がコンパイルするので。この辺の事情から正規表現は dump 時の挙動とかも一部違います。