自宅で管理しているPDFファイルを、メインPCとNASの2箇所で同期させながら保管しているのですが、たまにズレがあるのでWinMergeでまるごと比較して同期漏れなどがないかを確認していました。その中で「いや、何が違うのかわからないのだけど……」というファイルが見つかりました。
「舞鶴」という字が違うと言われる
そのファイルは、京都府の舞鶴関連の資料。ファイル名に「舞鶴」という文字が入っているのですが、どうやらこれが違うと叱られているらしい。ですが、パッと見たところ違いがわからない。
- 20121030_舞鶴.pdf
- 20121030_舞鶴.pdf
たしかに、よく見ると2つめの方が、「ツル」の字がすこしつぶれて見えるように思えますが。なんだろう……。
サクラエディターに貼り付けて調べる
文字コードを調べられるサイトなどもありますが、私がよく使うのがサクラエディターなどのテキストエディター。この手のツールでは、カーソルで選択している部分の文字コードを表示してくれる機能がある場合があります。文字種が違うならば、おそらく文字コードが違うはずで、これくらいの文字数であればカーソルを1個ずつ当てればすぐわかるはず。早速やってみます。まずは1つめのファイル名。
サクラエディターの下段、ステータスバーと呼ばれるエリアに「U+9DB4」というユニコードで文字に振られている通し番号(コードポイント)が表示されています。次は2つめのファイルを見てみましょう。
こちらは「U+FA2D」ですね。どうやら文字が違うようです。何が違うのかよく見てみると、ツルの字の左側、1つめはワ冠から左下に斜めに線が突き抜けていますが、2つめはウ冠になってますね。なるほど。書いてみるとこんな感じです。
これは何者なのか
私がよく使う文字コード調査用のサイト、Unisearcherで調べてみると、
鶴 | 鶴 | |
---|---|---|
Unicode | 09DB4 | 0FA2D |
UTF-8 | E9B6B4 | EFA8AD |
Shift-JIS | 92DF | なし |
ウ冠のツルは、Shift-JISには該当する文字がないようですね(Shift-JISってもいろいろあるのでもしかしたら入っているかもしれませんが)。Unisearcherでは「CKJ Compatibility Ideograph-fa2d」と書いてあります。これは「CJK互換文字」と呼ばれる文字種、CJKは「中国/日本/韓国」の略で、漢字系はまとめて管理しましょうよ、ってことで統一された文字コード体系で管理しようとした……のだけれど、それでもいろいろ問題が出てきたので、そこからはみ出したものを「互換文字」としてまとめました、というものらしいです(ざっくり把握なので間違っていたらゴメンナサイ)。
これではなんだか判らないので、ウィクショナリーで調べてみると
鶴(俗字。3画目が分かれていて、宀と隹になっている
俗字……ですか。なんだろう。さらに「俗字」も調べてみると
1. 一般に通用するが、正式でない字。(例:「檜」→「桧」、「働」→「仂」など)
2. 一般にはあまり通用しないが、略した漢字もどき。(例:「園」→【囗の中に<エン>を縦に並べる】、「機」→【木ヘンの右にキ】など)
日本語における簡略化バージョン、のようなものでしょうか。しかし、正直なところ俗字じゃない方が書く際の手間も少ないし楽だと思うのですけどね……。そもそもなんでこの字がファイルに命名する際に紛れ込んだのか判りませんが、以後、ちょっと気をつけないといけないと思いました。