2005-01-01から1年間の記事一覧

nkf 2.0.6に向けてのChangelog

そのうち出すであろう nkf 2.0.6 の覚書 .SH nkf 2.0.6 .PP ひらがなカタカナ変換のドキュメントが逆になっていたのを修正しました。 正しいドキュメントは以下の通りです。 \-h1 \--hiragana カタカナ->ひらがな \-h2 \--katakana ひらがな->カタカナ \-h3 …

Cast Syndication Format WD4

castIcon を castMember に追加 (bug fix) castStatus を castMember に追加 castAuthor と castMember を統合し、castPerson にする のような変更が検討されています。

nkf (2)

先日なんか書きましたけれど、結局フルサポートする事にしました。 CP932 to UTF-16BE nkf -S -xw16B0 --cp932 UTF-16BE to CP932 nkf -s -xW16B0 CP51932 to UTF-16BE nkf -E -xw16B0 --cp932 UTF-16BE to CP51932 nkf -e -xW16B0 eucJP-ms to UTF-16BE nkf…

skf

なんか散々な結果に・・・。そもそも、system関数を多用するためか、そのままだと動かないかもしれません。skfが落ちてしまう場合は 「log1 +=」や「log3 +=」を 「puts」にしてしまうといいかも。しかし、はやくPerlモジュールにならないかな、なったらRuby…

nkf

なおnkf用の設定はiconvよりもだいぶ条件を緩めてあったりはします。これはiconv等のようにcodesetをきっちり指定して、それに基づいた変換を行うものと異なり、nkfはあくまでSJIS・EUC・JISを指定した上で、ユーザの意図に沿うようにできるかぎりよしなに計…

Citrus iconv (4)

というわけで、さっそく先日の森山さんによるパッチによって、CP932関連の互換性がだいぶ改善されたCitrus iconvを改めてテストしてみました。現在のnetbsd-currentでのテスト結果です。 Unicode to cp932 Convertion Test corrrect: 9359 failed: 1 U+3094:…

Test Encoding Converter

先日のCitrus iconvのテストで用いたスクリプトでは、重複符号化された文字についてのチェックは行われていませんでした。 そこで、今回改めて、IBMのICUやPerlのEncodeモジュールで用いられている、ucm形式のファイルを読み込んでチェックするようにしてみ…

Encode::EUCJPMS 0.05 Released

EUCJPMS.pmを更新し忘れていたので、0.05をリリース^^; 0.05 Thu Oct 13 04:38:29 2005 ! EUCJPMS.pm Fixed: qr/\bcp51932$/i was aliased to '"eucJP-ms"'

Encode::EUCJPMS 0.04 Released

というわけで、0.04をリリース。 eucJP-open もあった方がいいのかな。。。?http://search.cpan.org/dist/Encode-EUCJPMS/ 0.04 Tue Oct 11 03:59:38 2005 ! ucm/eucJP-ms.ucm Fixed: Can't convert User defined characters, duplicated characters, JIS X…

[Char]Citrus iconv (3)

森山さんのblogで捕捉して頂いていた事に今更気づく(ぉぃ その後自分で直すことは断念したので、間違っていると思われる点だけメモしておくことにします。

Citrus iconv と CP932

Rubyist Magazine 0009 号にて、 Citrus iconv で Windows の機種依存文字が Unicode に変換できないと書いたら、早速修正してくださいました。ありがとうございます。 src/share/i18n/csmapper/CP/mapper.dir.CP.src src/share/i18n/csmapper/CP/CP932EXT%U…

小舟に乗って川を渡る #(人 狼 羊 菜) たち

http://d.hatena.ne.jp/sumim/20050810 最近日本語ばっかりでコードを書いていなかったので、頭の体操代わりに。 普通に考えた方が早いのだが、あえてRubyで解いてみる。 def cmp(a, b) count = 0 a.each_index do |i| next if a[i] == b[i] break if count …

JIS2004と「字形の変更」

.mjtさんのところで見かけた2004 JIS をめぐる混乱を読んで、頭痛がした。 日本語の文字コードは未だにこんな連中に弄ばれているのか・・・。 > 「区鳥」と「區鳥」とでは、大きく字形が異なる 文脈を読めば、同じ文字だから両方正しい。 規格に準じれば、「…

NetBSD iconv

NetBSDのiconvはCitrusプロジェクトの成果を利用しており、 glibcやlibiconvとは独自の実装なわけですが、 一部の機種依存文字を変換する事が出来ません。とりあずCP932->UTF-8での変換でこける文字を置いておきます。 ①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳ ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ ㍉㌔…

Browser Info.

最近リリースされたブラウザの情報。 Microsoft Internet Explorer 7 Beta1 appCodeName: Mozilla appName: Microsoft Internet Explorer appMinorVersion: Beta 1 cpuClass: x86 platform: Win32 plugins: opsProfile: userProfile: systemLanguage: ja use…

Windows Vista

Windows VistaはWindows VI stableの略、って言っておく(ぉ ってか、Windows 6になると思ってたんだけどなぁ。。。

スクリプト言語とその出生

一般に普及しているスクリプト言語はたいていC言語系なわけですが、多くはその出生を巧妙に隠しています。 例えば皆の知っているPerlはシェルスクリプトの流れを受けていますし、RubyはSmalltalkの流れを強くうけています。(他にもCLUなどからも影響を受け…

Character Encoding Model

Unicode Technical Report #17: Character Encoding Modelをまとめたものをメモ代わりに。 複雑な文字コードの概念を整理する際、この文書はなかなかに役に立つ。 Abstract Character Repertoire (ACR) 文字の同一性 these objects are defined by conventio…

Cast Syndication Format WD3

ChatXMLの名称が“Cast”に変更されました。http://airemix.org/TR/Cast/cast-0.3.rnc http://airemix.org/TR/Cast/cast-0.3.rng http://airemix.org/TR/Cast/wd3.xml要素の順序についての規定を廃するため、検証をDTDからRelaxNGへ移行しました。

Chat XML Working Draft 2 Reviced

そもそもDTDがbrokenだったので、修正しましたよ。http://airemix.org/TR/ChatXML/DTD/ChatXML-0.2.dtd DTD http://airemix.jp/chat/?type=xml&version=0.2 実装 http://d.hatena.ne.jp/nurse/20050622#1121280072 出力サンプルRequest For Commentです。 ノ…

UTF-8-MAC

とりあえずUTF-8の場合だけ実装してみた。 今考えればUTF-16でも対応できるように出来たのだが、 まぁ、それは気が向いたら修正しよう。http://developer.apple.com/ja/qa/qa2001/qa1173.html とりあえず、UTF-8-MACはここから飛べるテーブルにそって置換す…

nkf/skf vs iconv

iconvもいいかなぁと思っていたけれども、最近は思い直してきた。iconvはどうしてもエンコーディング名のみで指定する方向に行くわけで、これはちょっと微妙。euc-jp-ms-dosとか、指定としてありえないじゃん。オプション的なものを付けづらってのもあるし。…

Chat XML DTD 0.2

http://www.airemix.org/TR/ChatXML/DTD/ChatXML-0.2.dtd Revision: 1.2 (2005-07-15)

Unicode正規化について

Unicode正規化 NFC (Normalization Form C), NFD (Normalization Form D), NFKC (Normalization Form KC) ,NFKD (Normalization Form KD)とある。CはComposition。つまり、合成して完成形にする。 DはDecomposition。つまり、分解する。 KはCompatibility。…

Encode.pm

Perl5.8ではEncode.pmという巨大な文字コード変換ライブラリが入っています。しかし、日本語の変換に際しては、さまざまな問題があります。まずEUC-JPへと変換する場合の問題の回避策は以下の通り。 Encode($str, 'utf-8', 'EUC-JP', Encode::FB_HTMLCREF); …

Chat XML Working Draft 2案 Example

<feed version="0.2" xmlns="http://airemix.org/2005/ChatXML"> <updated>2005-07-15T00:39:49+09:00</updated> <system> <uri>http://airemix.com/Marldia/1.31</uri> <name>Marl…</name></system></feed>

Chat XML WD2で予定される変更

絶対URI URIは原則絶対URIにする。 発言者の情報 article/author に入れる name, uri, email, color, icon home要素 uri要素に変更 body要素 タグを使っている場合、どうするか。 CDATAされたHTMLをデフォルトにする方向で。 でも、それだと将来辛そうだから…

Chat Log XMLの懸案

意見を募集しています。 絶対URI MUSTにする項目 発言者の情報 article/author に入れるようにしようか home要素 linkに変えようか body要素 タグを使っている場合、どうするか。 XHTML?CDATAedHTML?CDATAedPlainText?

Chat Log XML Working Draft 1

概要 チャットが出力するXMLの仕様。 エンコーディング UTF-8を推奨するが、EUC-JPでもよい。 document要素 説明 Chat XMLのルート要素 内容 updated system site (optional) entry 備考 entry要素以外は一つしか持たない。 updated要素 説明 親要素が更新さ…

文字

each_charってどうよ?って話だけれど、characterで正しいと思います。letterやglyphは違う意味ですしね。「文字構成要素でも符号位置を持っていれば,それをcharacterと呼ぶことがSC 2の定義であり,これらを合成した結果の"いわゆる文字"はcombining seque…