PDFデータで公開されている資料を分析することがある。
たまに・・・という頻度ではなく、かなりの頻度で。
最近書いた記事の例では、オンライン診療について触れた下記がそうだ。
オンライン診療の未来は読めない? - 株式会社メディチュア Blog
4月10日の通知で対応している医療機関のリストを分析したものだが、なかなか厄介なPDFだった。
うちでは、PDFの表データをCSVやエクセルのデータにするのは、次の3つの方法で対応している。
1.コピペ
ちょっとしたものは、コピペで。区切り位置などの調整は、テキストエディタなどで行う。表1つだけであれば、この方法で何とかしてしまうのが早い。
2.AdobeのAcrobatでEXCELデータに変換
量があるときは、次にこれを試す。オフィシャルなツールなので、ある程度信頼できる。有料サービスだが、時間短縮を思えば、十分価値がある。表だけでなく、WORDへの変換などもできるので、便利だ。
3.pythonで処理する
1、2でうまく処理できれば良いのだが、そういうわけにはいかない資料がある。そこでプログラムを組む。PyPDF2、tabula-pyなどを使っている。比較的きれいな表であれば、前者でさくっと処理できる。後者はパラメータを調整すれば、汚い表であっても強引に処理できる。
これら3つの方法をうまく使い分け、データ分析をしている。
ただ、これらの作業には難点がある。結局、どの方法で処理したとしても、数値があっているか検証しなければならない。少しの量なら、それほど時間はかからないが、膨大になると・・・、検証もすごいことになる。
PDFは印刷して配布する目的にはベストな手段であるが、データ分析には向かない。できれば、色々な資料はエクセルやCSVでデータを配布して欲しい。
(国も、そういってるし・・・ オープンデータをはじめよう 〜 地⽅公共団体のための最初の⼿引書 (案)〜 内閣官房 情報通信技術(IT)総合戦略室 siryou2-4.pdf)
でも色々なPDFがあるおかげで、プログラムで処理するスキルは向上している。どんなデータが来ても、怖気づかなくなったという点は良かった??のかもしれない。