PDFデータは分析に向かない

PDFデータで公開されている資料を分析することがある。
たまに・・・という頻度ではなく、かなりの頻度で。

最近書いた記事の例では、オンライン診療について触れた下記がそうだ。
オンライン診療の未来は読めない？ - 株式会社メディチュア Blog

4月10日の通知で対応している医療機関のリストを分析したものだが、なかなか厄介なPDFだった。

うちでは、PDFの表データをCSVやエクセルのデータにするのは、次の3つの方法で対応している。

１．コピペ
ちょっとしたものは、コピペで。区切り位置などの調整は、テキストエディタなどで行う。表1つだけであれば、この方法で何とかしてしまうのが早い。

２．AdobeのAcrobatでEXCELデータに変換
量があるときは、次にこれを試す。オフィシャルなツールなので、ある程度信頼できる。有料サービスだが、時間短縮を思えば、十分価値がある。表だけでなく、WORDへの変換などもできるので、便利だ。

３．pythonで処理する
１、２でうまく処理できれば良いのだが、そういうわけにはいかない資料がある。そこでプログラムを組む。PyPDF2、tabula-pyなどを使っている。比較的きれいな表であれば、前者でさくっと処理できる。後者はパラメータを調整すれば、汚い表であっても強引に処理できる。

これら3つの方法をうまく使い分け、データ分析をしている。
ただ、これらの作業には難点がある。結局、どの方法で処理したとしても、数値があっているか検証しなければならない。少しの量なら、それほど時間はかからないが、膨大になると・・・、検証もすごいことになる。

PDFは印刷して配布する目的にはベストな手段であるが、データ分析には向かない。できれば、色々な資料はエクセルやCSVでデータを配布して欲しい。
（国も、そういってるし・・・　オープンデータをはじめよう〜地⽅公共団体のための最初の⼿引書（案）〜　内閣官房情報通信技術（IT）総合戦略室　siryou2-4.pdf）

でも色々なPDFがあるおかげで、プログラムで処理するスキルは向上している。どんなデータが来ても、怖気づかなくなったという点は良かった？？のかもしれない。