福野泰介の一日一創 - create every day

日本政府によるデータカタログ、DATA GO JPが再開しました。様々な形式、1万データセットがオープンデータとして使えます。前回は絶滅危惧種アプリを創りましたが、データを見るのに便利なCSVビューワーを作成しました。

CSVという形式、Comma-Separated Values の略で、ざっくり言うとカンマと改行によって表現された古のファイルフォーマットです。XMLと同様、5つ星オープンデータでは、3つ星とされますが、XMLと比較し開発者には日本特有ガラパゴス仕様であるため人気がありません。

古いフォーマットなので、日本語をコード化する体系に"シフトJIS"という現在の主流の"ユニコード"ではないものが使われています(DATA GO JPにおいても)。そのため、グローバル化したプログラミング環境においては一手間かかる、開発者の目には美しくないフォーマットに見えてしまうわけです。

W3CでCSVをutf-8に統一する動きがありますが、Excelで読み書きできなくなる、新旧の区別がつかないなど新たな問題を生みます。オススメはCSVは今のまま運用しつつ、RDF化を急ぐことです。

CSVとはいえ、有益なデータが統一的にプログラムで扱える貴重なオープンデータ、がんがん活用するべきです。私はサーバーによる変換を通して、JavaScriptで配列として容易に扱えるようにして使っています。今回、それを使ったCSVビューワーをつくりました。


「CSVビューワー」

こちらがCSVデータを見るサンプルです。

確定値を見る_辺戸岬の表示_空気中放射能濃度測定結果表(確定値の集計値) 6時間値2003年
同様に、2003年から2010年までの8年分のCSVデータが公開されています。
2003年, 2004年, 2005年, 2006年, 2007年, 2008年, 2009年, 2010年
・・・2011年以降とを比較したいところなのですが、なぜかカタログにありません。

データでみる日本の旅のちょっとしたお供になれば幸いです。
DATA GO JP

Tweet
クリエイティブ・コモンズ・ライセンス
この作品は「Creative Commons — CC BY 4.0」の下に提供されています。
CC BY 福野泰介 - Taisuke Fukuno / @taisukef / アイコン画像 / プロフィール画像