misc.log

日常茶飯事とお仕事と

ファイル名が違うと言われたが違いが分からない(俗字と言われるものだった……)

自宅で管理しているPDFファイルを、メインPCとNASの2箇所で同期させながら保管しているのですが、たまにズレがあるのでWinMergeでまるごと比較して同期漏れなどがないかを確認していました。その中で「いや、何が違うのかわからないのだけど……」というファイルが見つかりました。

舞鶴」という字が違うと言われる

そのファイルは、京都府舞鶴関連の資料。ファイル名に「舞鶴」という文字が入っているのですが、どうやらこれが違うと叱られているらしい。ですが、パッと見たところ違いがわからない。

  • 20121030_舞鶴.pdf
  • 20121030_舞鶴.pdf

たしかに、よく見ると2つめの方が、「ツル」の字がすこしつぶれて見えるように思えますが。なんだろう……。

サクラエディターに貼り付けて調べる

文字コードを調べられるサイトなどもありますが、私がよく使うのがサクラエディターなどのテキストエディター。この手のツールでは、カーソルで選択している部分の文字コードを表示してくれる機能がある場合があります。文字種が違うならば、おそらく文字コードが違うはずで、これくらいの文字数であればカーソルを1個ずつ当てればすぐわかるはず。早速やってみます。まずは1つめのファイル名。

f:id:frontline:20220219131021p:plain
1つめの「ツル」は9DB4

サクラエディターの下段、ステータスバーと呼ばれるエリアに「U+9DB4」というユニコードで文字に振られている通し番号(コードポイント)が表示されています。次は2つめのファイルを見てみましょう。

f:id:frontline:20220219131300p:plain
2つめの「ツル」はFA2D

こちらは「U+FA2D」ですね。どうやら文字が違うようです。何が違うのかよく見てみると、ツルの字の左側、1つめはワ冠から左下に斜めに線が突き抜けていますが、2つめはウ冠になってますね。なるほど。書いてみるとこんな感じです。

f:id:frontline:20220219131855p:plain
2つの文字を書き比べてみる

これは何者なのか

私がよく使う文字コード調査用のサイト、Unisearcherで調べてみると、

Unicode 09DB4 0FA2D
UTF-8 E9B6B4 EFA8AD
Shift-JIS 92DF なし

ウ冠のツルは、Shift-JISには該当する文字がないようですね(Shift-JISってもいろいろあるのでもしかしたら入っているかもしれませんが)。Unisearcherでは「CKJ Compatibility Ideograph-fa2d」と書いてあります。これは「CJK互換文字」と呼ばれる文字種、CJKは「中国/日本/韓国」の略で、漢字系はまとめて管理しましょうよ、ってことで統一された文字コード体系で管理しようとした……のだけれど、それでもいろいろ問題が出てきたので、そこからはみ出したものを「互換文字」としてまとめました、というものらしいです(ざっくり把握なので間違っていたらゴメンナサイ)。

これではなんだか判らないので、ウィクショナリーで調べてみると

鶴(俗字。3画目が分かれていて、宀と隹になっている

ja.wiktionary.org

俗字……ですか。なんだろう。さらに「俗字」も調べてみると

1. 一般に通用するが、正式でない字。(例:「檜」→「桧」、「働」→「仂」など)
2. 一般にはあまり通用しないが、略した漢字もどき。(例:「園」→【囗の中に<エン>を縦に並べる】、「機」→【木ヘンの右にキ】など)

ja.wiktionary.org

日本語における簡略化バージョン、のようなものでしょうか。しかし、正直なところ俗字じゃない方が書く際の手間も少ないし楽だと思うのですけどね……。そもそもなんでこの字がファイルに命名する際に紛れ込んだのか判りませんが、以後、ちょっと気をつけないといけないと思いました。