oniguruma

鬼車と ISO 2022 と

[A-Z]の場合、AとZは同じescape escapeでなければダメとか。 http://www.hi-matic.org/diary/?20080810#10-1 ちゃんと読みきれてないんですが、鬼車の文字クラス処理は OnigCodePoint を使って行っているので、基本的には全部そこに持っていって処理し、エス…

鬼車の CES/CCS

「鬼車ちゅーのは(中略)自前でCES/CCS周りを実装してるので」とのだけれども、locale ベース前提ならば、OnigEncodingType に適当にダミーを突っ込んで、ONIGENC_* を全部ひっかければいいだけな気もしますな。しかし、Citrus って内部は 32bit wide charact…

鬼車はバイト単位だから

そんなわけで「ISO-2022-JP だって根性さえあれば余裕だし?」などと思い始めるわけですが、当然状態はどうすんだよとなるわけですな。自分にはそんな根性はないものの適当に妄想してみることにする。 起動時に直前のエスケープシーケンスまで戻って(マッチ…

鬼車は本当に wide character 方式か

Ruby や鬼車の stateful encoding の「鬼車も wide character 方式」だけど、なんか違うような気がしてきたので見直してみたら全然違いました。鬼車においてコードポイントを格納している OnigCodePoint が実際に現れるのは最終的に正規表現とマッチさせる時…