2021-06-14
日本政府発行文字環境導入実践ガイドブックにて強く推奨されているJIS X 0213。 文字集合を調べた結果、半角スペースが入っていませんでしたが、会員登録すると読める「JISX0213の仕様書を読むと、半角スペースや、各種制御コードも含まれると明記されていました(X0213_001.pdf)。


JIS X 0213 チェッカー
一通りテストコードを書いて、βを取ったJIS X 0213チェッカーとJavaScriptのライブラリ(JISX0213.js)ができました。ハンカクカナや、全角数字などはJIS X 0213規定外と赤く表示されます。 1byteのコードは唯一0xb5(μの別コード)を除いて有効なJIS X 0213です。「JIS X 0213非漢字一覧」にも記載されていますが、μはUnicodeのU+03bcを使用しましょう。

これで安心して紛らわしい表記揺れが少ないキレイなデータづくりができますね!
JIS X 0213に対応する解析ツール(リンター)も用意したいところです。

作成時に発見した、Wikipediaの記載のまちがい、2つ。

JIS X 0213非漢字一覧
グレーブアクセント付きスクリプトA小文字など4つの文字は、U+251+300と2つのコードポイントが記載されていますが、実際のコードはU+1F71などを使います。(JIS X 0213の仕様書を確認)

マイクロ - Wikipedia
「ギリシャ文字ミュー「μ」に代えて、互換性のためにLatin-1領域に存在するU+00B5「µ: micro sign」があり、こちらを使用するのが良い」とありますが、「Μ - Wikipedia」にも記載されているように、U+00B5はJIS X 0213に割り当てられていないので、U+03BCを使用しましょう。 普通に「ミュー」で変換してでてくるもので問題ありません。

Tweet
クリエイティブ・コモンズ・ライセンス
本ブログの記事や写真は「Creative Commons — CC BY 4.0」の下に提供します。記事内で紹介するプログラムや作品は、それぞれに記載されたライセンスを参照ください。
CC BY / @taisukef / アイコン画像 / プロフィール画像 / 「一日一創」画像 / RSS