misc.log

日常茶飯事とお仕事と

Shift_JIS→UNICODE→Shift_JISでおかしくなる文字 (2)

Shift_JISで読んでUnicodeに変換したのち、再度Shift_JISに変換しなおすことでコードが変わってしまう文字は、2,047文字あった。中でも

  • 87-90 〜 87-92 の3文字
  • 87-95 〜 87-97 の3文字
  • 87-9A 〜 87-9Cの3文字
  • ED-40 〜 ED-FC の188文字
  • EE-40 〜 EE-7E の63文字
  • EE-80 〜 EE-EC の109文字
  • EE-EF 〜 EE-FC の14文字
  • FA-4A 〜 FA-54 の11文字
  • FA-58 〜 FA-5B の4文字

これらの文字は、同じ文字がShift_JISコード内に2つ存在していて、Unicodeを仲介することで、他方のコードに変換しなおされてしまっている(Shift_JISじゃないのかな?なんせ上記のコードは多重定義されていた)。
これらをシステムが扱う場合は注意が要るのね。っても、具体的にどう対処するのかは思いつかず。