2020/07/24

「稼ぎ頭」に協力してもらえると最強になる

CBnewsに看護必要度の分析記事を掲載いただいた。
改定の影響について、整形外科病棟を深堀りしてみた。看護必要度の観点から「稼ぎ頭」という表現を使っているが、あるべき姿を考えれば、さらなる協力をしてもらうことが重要なるのでは、というのが主旨。

4年以上前の下記記事でも、大腿骨頸部骨折を取り上げ、同じような分析をさせていただいている。(MMオフィス工藤氏の裏側でデータ分析を担当させていただいていた)

当時の工藤氏の記事中に「ブックメーカー的に予測し、それが当たったとしても・・・」とあるが、制度・点数がどうなろうと関係なく、どうあるべきかを考えるという教えが、今回のCBnewsの記事にも流れているつもり。

よろしければ、今回の記事とあわせて、前の記事もどうぞ。

2020/07/14

データ分析の本を読む前に、ここを見るべきかも

すごい。

eラーニング教材・講義動画配信 | 数理・データサイエンス教育強化拠点コンソーシアム eラーニング教材・講義動画配信 | 数理・データサイエンス教育強化拠点コンソーシアム

書籍でも刊行予定のようだが、充実ぶりがすごい(まだ大半の中身は見ていないが)。

タイトルを見る限り、大学や社会人で学んできたことが揃っている。

大学がオンライン講義になっている現状を考えると、もはや、大学でデータサイエンスを学ぶのであれば、これで大半の学生は十分でないか?とすら思ってしまう。しかも、学生でなくても、誰でも学べてしまう。

自分の優位性が危うい。誇れるのは中途半端にとった歳くらいか??

と、技術的・知識的に強い危機感はあるものの、弊社の優位性は、人的ネットワークである。良いクライアントと仲間に恵まれている。この環境に甘んじることなく、努力しなければ。

余談だが、自分の学生時代の研究は、自己相関関数を用いた信号処理、時系列解析がベース。こういう体系的な整理を見ると、色々つながっていたな、もう少し真面目に勉強すればよかったな、と今さらながらに反省。

2020/07/12

色々とメンテナンス

サーバーをメンテナンス。暇なときに、お金に余裕があるときに、と後回しにしていたOSの更新、ネットワーク環境の改善、グラフィックボードの強化をした。

以前から、お金に余裕があるとき・・・と考えていたものの、しょぼいサーバーゆえに、全部あわせても数万円で収まった。早いこと対応しておくべきだった。

ネットワークの改善は、バッチ処理が不安定になる原因だったので、早急に対処したかった。

グラフィックボードは、機械学習などで処理時間が大幅に短縮できる。とは言え、そんなに重い処理は回していないので、気にしてなかった(待てばいいだけ)。ところが、今期は大学の講義がオンラインか動画配信になり、動画を編集しはじめたら不満が。というわけで、急遽強化してみた。試しに以前組んだ機械学習のプログラムを回したら、5倍か6倍くらい速くなった。

OSはWindows8.1だったので、まだサポートが切れるようなタイミングではないけど、Windows10に。サーバー以外はすでにWindows10になっていたので、むしろ、なぜサーバーだけ更新をしなかったのかが不思議なくらい(安定したら更新しよう・・と思って、見送ってたせいかな、きっと)。そして、なぜかWindows10のライセンスが1つ余っている。よく分からない・・・。

今月はデータ整備用のノートPCが壊れたり(正確にはバッテリーが充電できなくなっただけで、電源をつないでおけば使える)、8年使っているプリンター(5500円)に限界が来たり、色々不調続き。多少の出費は覚悟すべきか。

2020/07/08

仮説は大外れだったけど、記事にしちゃいました

CBnewsに記事を掲載いただいた。

高齢化と効率性係数の関係、筆者の予想は大外れ - CBnewsマネジメント 高齢化と効率性係数の関係、筆者の予想は大外れ - CBnewsマネジメント

仮説を立て、分析し、記事にまとめる。いつも、大体、この流れ。

仮説通りの結果が出ないと、記事自体の主張がブレブレになるので、当たり前だが、ボツにする。正直、分析結果は微妙なことも多い(毎回、毎回、完璧な結果が出てくるわけがない)。

今回は「院内の高齢化の進展は、効率性係数にはネガティブな影響をおよぼす」と仮説を立てて分析を始めたものの、想定通りの結果は得られなかった。

いつもなら、原稿をボツにして、違うネタで書き直す。だが、今回は、想定通りの結果ではなかったものの、興味深い結果だったので、そのまま原稿を書いてみた。(決して、やり直すのをサボったわけではない)

このような経緯で「筆者の予想は大外れ」というタイトルにして、主張内容を明確にしてみた。

効率性係数がなかなか上がらない病院において、高齢化をどう捉えればよいか、参考にしていただける内容になったと信じている。

2020/07/05

PDFデータは分析に向かない

PDFデータで公開されている資料を分析することがある。
たまに・・・という頻度ではなく、かなりの頻度で。

最近書いた記事の例では、オンライン診療について触れた下記がそうだ。
オンライン診療の未来は読めない? - 株式会社メディチュア Blog

4月10日の通知で対応している医療機関のリストを分析したものだが、なかなか厄介なPDFだった。

うちでは、PDFの表データをCSVやエクセルのデータにするのは、次の3つの方法で対応している。

1.コピペ
ちょっとしたものは、コピペで。区切り位置などの調整は、テキストエディタなどで行う。表1つだけであれば、この方法で何とかしてしまうのが早い。

2.AdobeのAcrobatでEXCELデータに変換
量があるときは、次にこれを試す。オフィシャルなツールなので、ある程度信頼できる。有料サービスだが、時間短縮を思えば、十分価値がある。表だけでなく、WORDへの変換などもできるので、便利だ。

3.pythonで処理する
1、2でうまく処理できれば良いのだが、そういうわけにはいかない資料がある。そこでプログラムを組む。PyPDF2、tabula-pyなどを使っている。比較的きれいな表であれば、前者でさくっと処理できる。後者はパラメータを調整すれば、汚い表であっても強引に処理できる。

これら3つの方法をうまく使い分け、データ分析をしている。
ただ、これらの作業には難点がある。結局、どの方法で処理したとしても、数値があっているか検証しなければならない。少しの量なら、それほど時間はかからないが、膨大になると・・・、検証もすごいことになる。

PDFは印刷して配布する目的にはベストな手段であるが、データ分析には向かない。できれば、色々な資料はエクセルやCSVでデータを配布して欲しい。
(国も、そういってるし・・・ オープンデータをはじめよう 〜 地⽅公共団体のための最初の⼿引書 (案)〜 内閣官房 情報通信技術(IT)総合戦略室 siryou2-4.pdf

でも色々なPDFがあるおかげで、プログラムで処理するスキルは向上している。どんなデータが来ても、怖気づかなくなったという点は良かった??のかもしれない。