2015/10/29

【初心者向け企画】分析の初歩を学ぼう 第1回 ヒストグラム

2015/10/30 赤字でコメントを書きました(Masaru Watanabe)

まずは、ヒストグラムについて学ぼう。
ということなので、『DPCデータ 他院より紹介の有無』を利用して参考書(EXCELビジネス統計分析 [ビジテク] 第2版 2013/2010/2007/2003対応)に沿ってヒストグラムを作成してみました。

できたものがこちらです。


できました!!

以下、作業の流れです。

1.元のエクセルデータから、ヒストグラム作業用基礎データを作る

下の表のように、データの個数やヒストグラムの区間の数、幅を作成します


2.データ区間を作る

1で作った区間の幅をもとに、下記(途中までの抜粋)のようなデータ区間の表を作成します



3.グラフを作る

あとはエクセルのデータ分析ツールを使ってグラフを作るだけです。

「データ」のタブの「データ分析」をクリックして、


「ヒストグラム」を選び、


ポップアップで出てきた入力画面で、1,2で作ったデータのセル・範囲を指定すると、グラフが出来ました。


ただ、階級が細かすぎて正直なところ、みにくいのは気のせいでしょうか。
そこで、もう少し階級を減らしてみました。


率の区切りがなじみのあるものになったので、わかりやすくなったような気もします。

わかることは

  • 左側に山があるグラフだということ。
  • 比較的なだらかな山にみえるということ。
→左右対象の分布ではないことや、極端に低い値の施設は少ないこと、一方で高い値の施設は少なからずあること等々を理解することで、平均値からは見えてこない情報を得ることができます。平均値での比較を行うことが業務上よくありますが、分布の特性を把握しておかないと、そもそも分布の特性が異なる比較してはいけない物同士である、外れ値がある等の問題に気づかない場合があります。平均値とヒストグラムは常にセットで意識すべきと言ってもよいでしょう。

くらいでした。

だいたいにしてヒストグラムとはどんな分析に適しているのかもわからずにグラフにしてみたのが敗因だったのかもしれません。

ということで、
ヒストグラムの特徴を調べてみました。

参考にしたサイト、統計学園高等部(http://www.stat.go.jp/koukou/howto/process/graph/graph4.htm)によると、
ヒストグラムは、量的データの分布の様子を見るのに用いられます。データをいくつかの階級に分け、度数分布表を作成してから描写します。横軸にデータの値を、縦軸に度数を取ります。ヒストグラムは一見棒グラフに似ていますが、その面積が度数を表しているので、階級の幅が異なる場合には高さに注意しましょう(例えば、階級の幅が2倍になったときには、長方形の横の長さが2倍になり、縦の長さが2分の1になります)。
とあります。

うーん。やっぱりよくわかりません。

目的もなくグラフ化したことが敗因でしょうか・・・・

→勉強の一環とは言え、何かしら目的意識を持つべきでしたね。「自分の病院の課題をデータから探す」というテーマで、練習のための『自分の病院』を設定してみましょうか。
 また、単峰性だけでなく、多峰性のヒストグラムを探してみましょうか。関節リウマチの化学療法あたりが面白いかもしれません。