2016/03/14

【初心者向け企画】分析の初歩を学ぼう 第6回 ヒストグラムを簡単に作る方法

久しぶりに分析の勉強企画。これまでの内容を振り返ると、ヒストグラムや散布図を作ることで、データの背景にある病院や医療の内容を理解することができることなどを紹介してきた。

これまでの内容
【初心者向け企画】分析の初歩を学ぼう
【初心者向け企画】分析の初歩を学ぼう 第1回 ヒストグラム
【初心者向け企画】分析の初歩を学ぼう 第2回 実践的なヒストグラム作成
【初心者向け企画】分析の初歩を学ぼう 第3回 多峰性のヒストグラム(実践的なヒストグラム作成の続き)
【初心者向け企画】分析の初歩を学ぼう 第4回 散布図
【初心者向け企画】分析の初歩を学ぼう 第5回 多峰性のヒストグラム

ヒストグラムを作る手順は、これまでの内容を踏まえた方がよいのだが、如何せん面倒だ。しかも、学術的に非の打ち所がない完璧なヒストグラムを作ることが目的ではなく、あくまでも、病院経営に必要な情報を整理し、意思決定を促すことである。そこで、今回は、階級の定義などは単純化することで、容易にヒストグラムを作ることができ、かつ試行錯誤しやすくなる方法を紹介したい。

■ピボットテーブルを作る

DPC公開データの『(3)在院日数の状況』を用いて、データ提出病院の在院日数に関するヒストグラムを作ってみたい。

基となるデータは下記のような内容だ。

DPC公開データ(2015年公開 2014年度実績) 在院日数の状況の一部

まず、この右端にある在院日数に対し、小数点以下を切り捨てる関数『rounddown』を使い、ヒストグラム用の在院日数の列を作る。


rounddown関数については、マイクロソフトのサイト(ROUNDDOWN 関数 - Office のサポート)や、本など様々なところで説明があるので、特に困ることはないはずだ。

そして、すべての範囲を指定して、ピボットテーブルを作れば良い。ピボットテーブルの行には『平均値(ヒストグラム用)』、値には『施設名』でも入れておけばよいだろう。ここまでで下のような表ができるはずだ。






■ヒストグラムを作る

ここでピボットテーブルの中にカーソルを置き、エクセルのメニューから「挿入」→「縦棒グラフ」を選ぶだけで、下のようにヒストグラムっぽいものが表示される。


これだけでもよいのだが、最低限の整形をしてみる。

まず、在院日数が空白の病院があるので、フィルタで、在院日数が空白の病院を選択から外す。そして20日以上の病院がまばらすぎるので、グルーピングしてみた。さらに棒グラフの間隔を詰め、色を見やすくした結果が下のグラフだ。


どうだろうか。このヒストグラムを作るまでにかかった時間は、ほんの数分だ。しかも威力を発揮するのはここからだ。

■DPC病院群ごとの特性を見る

このヒストグラムはピボットテーブルが基になっている。そこで、ピボットテーブルの列に『DPC病院群(告示番号から数式で生成)』のデータを入れてみた。


DPC病院Ⅰ群(大学病院本院)はやや在院日数が長め、Ⅱ群は短め、Ⅲ群は5日から20日以上まで開きがあり、12日、13日が多くなっている、などの情報が一瞬で得られた。

■疾患特性が在院日数に与える影響を見る

次にDPC公開データ『(12)施設別MDC比率』を組み合わせた例を見てみよう。単純に、先ほどのピボットテーブルの元データのとなりに、施設別MDC比率を加え、分析範囲に再設定しただけだ。

例えばMDC16外傷が与える影響を見てみよう。平均在院日数のときにrounddownを使ったのと同様、MDC16の比率にも関数を使い区分を設定する。10%以上はひとつにまとめた結果が下のグラフだ。


MDC16の比率が低い病院はピークが12日に。中くらいの比率の病院のピークは12・13日前後、比率が高い病院は14日がピークになっている。何となく影響が見えてきた気がする。

これをMDC13血液疾患で作ったり、MDC08皮膚科系疾患で作ったり、切り替えることは一瞬だ。冗談抜きで、一瞬である。

わざわざデータを用意し、ヒストグラムを都度都度作る必要などない。ピボットテーブルの項目を切り替えるだけで、勝手にヒストグラムが出来上がっていく。

分析の利用用途がはっきりしているのであれば、こういった効率を重視した手法を活用してもよいだろう。今回紹介した手法は、そのままでは飛び飛びの値の場合に特定の階層表記が抜け落ちてしまう不都合な点もある。それゆえにあくまでも参考と思ってもらった方がよいかもしれない。ただ、思考と検証をストレスなく繰り返すには、データの整備に加え、このようなちょっとしたテクニックも大事だと感じている。