2009-03-01から1ヶ月間の記事一覧
ということで、「UCS-2は文字セット」と書いたのは間違いだったけど、ことさらRubyのEncodingに取り入れる必要性があったのかということは引き続き疑問です。 これはruby-devの議論で出た、tkの返すエンコーディング名をRubyで認識して欲しい、というニーズ…
ところが、UCS-2 UCS-4の所を見ると、encoding form としての意味しか書いてなくて、encoding schemeは無い。つまり、バイト列で表す方法が定められていないということか。ううむ、これではエンコーディングと言っても、ファイルに書いたり、通信に使ったり…
前回の続きの解説なのです。 ただ、UTFの所では、encoding form と encoding scheme が区別して書いてあり、実装というか byte sequence で表現する方法は encoding scheme という扱いだ。そして、バイト列にする前の scalar な値で表現する方法が encoding …
割り切った時点で、この記事ではUCS-2について書くつもりはなかったのですが、UTF-16を説明するにあたって必要と思われたので「今となっては古い方式です」という注釈をつけた上で記述を追加したものです。さて、このエントリはこのおたよりへの返信なんです…
「Ruby Freaks Lounge - 第4回 Ruby M17N 事始め:文字コード編」という記事を書きました。内容としては、種々の文字コード関連の規格をかたっぱしから歴史も含めて解説・・・しようとしたらISO 646シリーズだけで字数が大幅に超過したという。そのため、割…
同じです. そのコードを 日本語 UNIX 諮問委員会では long char と呼んでいました. そして, l は 1 と区別しにくいと言う事情で wchar_t になったと思います. (しかし, long int のほうが余程紛らわしいはずだと思いますが...) http://www.ie.u-ryukyu.ac.jp…
http://d.hatena.ne.jp/nurse/20090308 や http://d.hatena.ne.jp/nurse/20090309#1236538767 の続きです。 経緯を熊谷さんがコメントで書いてくださいました。ありがとうございます。というわけで詳細を詰めるわけです。nkf のメンテナの一人である河野さん…
「JAE 2.0(でたのかな、これそのまんなSVR4 MNLSだったり?)」ですが、リリースされていたようです。 AT&T UNIX PACIFIC RELEASES IMPROVED VERSION OF THE UNIX SYSTEM V Published:02-September-1987 AT&T Co's 100%-owned AT&T Unix Pacific has released …
CiNii で色々探していたら見つけたので以下に引用 我が国で特に関心が高かったのは,UNIX の日本語機能である.表-3 に我が国での UNIX の普及経過を示すが,この流れの中で,1985 年には AT& 社の要請で,筆者を委員長とする日本語 UNIX システム諮問委員…
「wchar_tという名前がどの時点で使われるようになったか」ですけど、そりゃー、C++ じゃないの?というわけで C++ からの輸入説を唱えてみる。(これは誤りであった)1986 年に Bjarne Stroustrup の 「The C++ Programming Language」が出版されているので時…
ちょうど昨日の記事で書いた日本語UNIXシステム諮問委員会の委員長を勤められた石田晴久氏が亡くなられたらしい。合掌。
Ruby M17N 事始め:入門編 が公開されました。事前に読んでコメントをくださった方はどうもありがとうございました。下の EUC ネタは実は次回のネタのメモだったりする。っていうか、まだまとめられてないよ!まぁ、この記事で言いたいことは、Ruby 1.9 をい…
ケータイの絵文字がJTC1/SC2/WG2へ@安岡さんちまぁ、思ったことはtnozaki さんと同じなので略す。しかし、描いてくださった Apple の方には悪いが、この例示字体和風テイストに描き直して欲しいわ。
New I18N API? 続 New I18N API? iconv_open("WCHAR_T")的なもので行きたい模様 とりあえず、iconv はバイト列同士での変換だと思うから、それを widechar にしちゃうのは気に入らないなぁとか。 あとエラーハンドリングは、そもそも文字コード変換に失敗し…
EUC-JP の歴史ではないことに注意していただきたい、EUC-JP には (おそらく) JIS X 0212、つまり補助漢字を含んだもの (UI-OSF 日本語環境実装規約 Version 1.1 の AJEC。とは言ってもこれは追認規格だったらしい) のことだろうが、「日本語 EUC」といった場…
のざきさんの 「AT&TがEUC(Extended UNIX Code)をUNIXの文字符号化手法として使うようになったのって正確にはいつからなんですかね」 について。FreeBSD 4.6.2 からのわたしが解説しますよ。結論からいえば 1985 年で、この年に System V Release 2*1 に対す…