2006-01-01から1年間の記事一覧

String#each_char

rubyco さんのところで、String#each_char って便利じゃない?って話が出ています。 これはすでにjcode.rbに存在しますね。組み込みにしようよと、まつもとさんに提案したこともあります。って、ここで String#each_char は HEAD に入れますとあるのに今も入…

文字を数える

artonさんの出題と解答例とか。以下のような解き方もおもしろいかな。もちろんUTF-8決め打ちならkconv不要。 require'kconv' "日本語".toutf8.unpack('U*').sizeArray#injectは凄い便利なので、artonさんのString#char_countも以下のように書き換えられます…

UTF-8の正規表現

弾さんのところにUTF-8 vs. ISO-10646というentryが。PerlではルーズなUTF-8のことをutf8と読んでましたね。 というわけで、UTF-8 の文字にマッチする正規表現という話。蛇足になりますけれど、もっと厳密にしますと、最短でないUTF-8表現を除外できるので、…

nkf と rdoc

結城さんに突っ込まれてしまったので、rdocについて。歴史的経緯から、Ruby には RD によるマニュアルの体系と、RDoc による体系が並立しています。さて、NKFや Kconv には ruby-man:NKF や ruby-man:Kconv のように RD によるマニュアルが存在します。しか…

nkf と UTF-32

nkf の UTF-32 サポートに対する需要ってどの程度あるのかなぁ。 微妙に実験的なサポートコードは手元にあったりするんだけど。 とりあえず、UTF-16 の文字コード推測は BOM のみで行っているので、 その辺を変えたコードは遅かれ早かれ入れるつもりなのだけ…

Quoted-printable と "Q" encoding

RFC2045 に規定されている The Quoted-Printable encoding と RFC2047 の The "Q" encoding は微妙に異なるわけですが、それでも問題になることはさほどないと思いきや、-mQ でバグる例が(汗 RFC2049 の mail-safe の要件や RFC2047 section 5 等を見ると、…