2015/12/11

【初心者向け企画】分析の初歩を学ぼう 第4回 散布図

2015/12/12 赤字でコメント書きました Masaru Watanabe

次は散布図ということで、散布図についてまず調べてみました。(多峰性のヒストグラム、ダメだしされてしまったのですが、そのやりなおしの前に、散布図ができあがっているので、まずこちらを載せます)

散布図をwikiさん(散布図 - Wikipedia)に聞いてみると、
散布図(さんぷず)とは、縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたものである。 各データは2項目の量や大きさ等を持ったものである。 散布図には、2項目の分布、相関関係を把握できる特長がある。 データ群が右上がりに分布する傾向であれば正の相関があり、右下がりに分布する傾向であれば負の相関がある。
と書いてありました。

ヒストグラムの回で使用したテキストをみると、まず相関分析について学んでから散布図をつくる流れとなっていました。

ふむふむ、何か関係の強そうなものを図にしてみたらよさそうです。
前回、ヒストグラムを作成したときに、病床数の多い病院と少ない病院に分けて他院より紹介ありの率をグラフ化したら、ヒストグラムに明確な差が出ていたから、病床数と他院より紹介ありの率は関係があるような気がします。

ということで、病床数と他院より紹介ありの率を散布図にしてみました。

散布図の作成方法をみると、なんと簡単なんでしょう。
データを項目ごと選択して、挿入タブから散布図のグラフを選ぶだけ。

→選択した範囲に異常値や文字列などがなければ簡単に表示されますよね。

できた散布図がこちらです。


なんとなく正の相関がありそうです。

→散布図は、ある程度ボリュームのあるデータであっても、相関関係を確認できる手段として優れていると思います。「なんとなく」という考え方も大事で、とりあえず散布図を作れば、仮説の「なんとなく」のレベルでの粗い検証が可能という点で便利です。

 この散布図、エクセルのような便利なツールがあるから、『とりあえず・・・』が通用するのですが、かつては、方眼紙に手でプロットしたりしていたらしく、相当な作業負荷だったらしいです。


相関があるかどうかは、本によると係数を使って判定するようです。

さっそくやってみましょう。方法も2つ載っています。CORREL関数を使用するか、データ分析タブの相関を使用するか。両方やってみました。

【関数で計算】
=CORREL(散布図!B2:B1805,散布図!D2:D1805)  → 0.447181121

【データタブからデータ分析、相関を選択して計算】


結果はあたりまえですが同じです。

本によると相関系数0.4は非常に弱い相関・・。

相関係数※ 相関の強さの目安
~0.3未満 ほぼ無関係
0.3~0.5未満 非常に弱い相関
0.5~0.7未満 相関がある
0.7~0.9未満 強い相関
0.9以上 非常に強い相関

※相関係数は絶対値

→弱い相関です。この相関係数の読み方は非常に難しいです。学術的な検証では、単にこの数値で判断するのではなく、N数との関係など、非常に神経質になる部分です。

 ただし、弊社の分析は、学術的な色は薄く、病院の意思決定などに有益な情報や判断材料を得る目的が強いです。そのため、相関係数を意識するようなケースはそこまで多くありません。


気を取り直してもうひとつ作成してみます。病床数と救急医療入院の率で。
できた散布図はこちら。



そして、相関係数は。

-0.108362269

あらあら、ほぼ無関係ですか。

関係性のあるデータを予測して可視化するのでしょうが、関係性のあるデータをむやみに探しても関係性のあるデータにたどりつくのは難しいようです。

逆にいえば、関係性があると思い込んでいたものでも、散布図にしたり,相関係数でみてみれば、無関係だってわかったりするということでしょうか。

→「相関がない」ということが分かることは「相関がある」ことが分かることと同様に非常に重要なポイントです。ただし、相関係数だけを見て「相関関係がない」と言い切るのではなく、散布図も併せてみることが重要です。

この病床数と救急医療入院の比率の関係性で言えば、病床数が少ない病院では、極端に救急医療入院割合の高い病院が見受けられます。しかし、病床数が多くなれば、救急医療入院割合の高い病院はなくなります。背景には、救急医療入院は病床数ではなく、診ている疾患で決まるという事情があります。

病床数が少ない病院には、脳梗塞専門病院のような救急医療入院が大半を占める疾患だけを診る病院が含まれています。しかし、病床数が500床、600床を超えれば、そのような専門病院は「がんセンター」といったようなところがあるくらいで、ほとんどは総合病院になります。そのため、救急医療入院の割合が高い疾患も低い疾患も診ているケースが大半であり、結果として、救急医療入院割合は極端に高い値にならないのです。

相関係数だけを見て「関係性はない」と判断するのではなく、散布図のおかげで、このような救急医療入院割合の数値の特徴が可視化できました。散布図を書いたから、その数値の背景を考えることができたのか。それとも数値に対する仮説があり、散布図で確認できたのか。にわとりが先かタマゴが先か、のような議論ですが、いずれの場合であっても、散布図が役に立つと言えるでしょう。

下の図を見て下さい。同じ救急医療入院の散布図に赤枠をコメントを書きました。


適当に書いた赤枠ですが、この枠内に99.3%の病院が収まっています。外に出てしまった0.7%程度の病院にはどのような特殊性があるか考えてみるだけでワクワクしてきませんか? そして、枠からはみ出た実際の病院名を見たらドキドキできるんです。

ちなみに、1200床弱のところで枠を大きくはみ出て、上の方(救急医療入院の割合が4割弱)に位置しているのは、ずばり、倉敷中央病院です。

医療関係者なら、ご納得いただける『特殊性』ですよね。

散布図って、とても面白いんです。