文字参照を含むキーワード

ちょっとテスト。

  • 髙橋結衣 (「髙橋結衣」と表記)

お、できた。

「髙橋結衣」の「たか」は「高」ではなく「髙」(いわゆる「はしご高」)ですが、はてなが使っている文字コードである EUC-JP のコード表にはありません(「高」と同じ文字として扱われる)。Windows文字コード*1ではこの二つを区別するので IE などからは入力できてしまい、はてなのサーバもコード表の範囲外の文字を受け付けてしまうので、IE からキーワードや日記を編集すると普通に編集できてしまいます。が、こうやって出来たデータは規格違反のデータで、ブラウザやツールによっては文字化けすることがあります(例えば Fedora Core 2 の w3m では文字化けしました)。

そういうわけで、妥協して「高橋結衣」と書くか、ユニコード文字参照を使って「髙橋結衣」と書くのが良いと思いますが、日記の捕捉という観点からするとどうしたものか。。。よくわからないので現在「高橋結衣」は三種類作ってあります。

このあたり、ヘルプやキーワード作成ガイドラインには記述がありませんが、どうしたらいいんでしょうね? 教えてはてなダイアリー!!

*1:Windows-31J あるいは CP932, MS932 などと呼ばれる。Shift_JIS を拡張したもの。