CSVオープンデータ以外は、データの変更によってPDFからの自動変換でエラーが起きることがあるため、自動化はしていません。本日、2つ処理でエラーが発生。 対応ついでに、アプリを作りました。
「新型コロナウイルス感染症患者の療養状況 病床使用率」
入院患者、重症患者、宿泊療養施設、それぞれの使用率データを都道府県別に表示するアプリです。厚労省発表データをCSV化し、オープンデータとして公開しているデータをカラム地図で表示しています。
2つのエラー原因、1つ目はうれしい変更、療養状況データに病床使用率とフェーズの項目の追加され、いくつか項目名の変更がありました。
↓(上:先週更新データ、下:今週更新データ)
レイアウトも合わせて縦から横に変更になったので、紙で管理していると急に見る方向が変わって見づらそうです。
CSVオープンデータであれば、項目名が変更にならなければ、他の項目の追加はいままでの処理に影響しないので、遠慮なくいくらでも項目が足せて便利です。 ぜひ、CSVオープンデータでの提供をお願いします。
2つ目は悲しい変更、毎日更新されるダッシュボードで最も重要なデータ、都道府県別患者状況のPDFデータが、本日はベクトル画像データでした。
「本日更新分のPDFデータ」
前日のPDFデータと見た目には変わっていませんが、テキストデータとして選択しようとすると違いが分かります。
この状態だとPDFからの自動変換プログラムが効かないので、OCRで読み取ってチェックするか、手で打ち込むしかありません。
チェックする手間、OCRプログラムを作ってテストする時間、明日は通常通りテキストで公開してくれることへの期待から、今回は手打ちする判断をしました。(打ち間違いがあったらごめんなさい! → JUSTPDF4で変換し、間違いご指摘いただき修正。IMABARI ZINEさん、ありがとうございます!)
「COVID-19 JAPAN - 都道府県別 新型コロナウイルス陽性患者数 (カラム地図7x7、厚生労働省データ)」
ということで、今日の更新も無事できました。
福井県で発生したカラオケクラスター、カラオケ行きたい気持ちは、オンラインでどうぞ!
→カラオケ全曲歌い放題「UTAON」 by jig.jp
「厚労省CSVオープンデータを使ったグラフ」
第二波が収束に向かう中、第三波に向けた準備が必要です。新たなデータ「フェーズ」を含め、ウィズコロナ時代のオープンデータとダッシュボードのあり方、探っていきましょう!
links
- Code for Shinjuku オープンデータの理想と現実と未来、厚労省都道府県別CSVデータに検査数追加
- データで見る新型コロナウイルス第二波、厚生労働省CSVオープンデータのグラフ化とまだPDFの病床数データの反映プログラム