このような技術の進展は、仮説→検証という流れを変えようとしている。膨大なデータから相関関係から見出し、それから因果関係を検討するということも可能になってしまった。おむつとビール(おむつ ビール - Google 検索)が話題でよく出る。ただ、「何でもかんでも分析すればいい、出てきた結果は興味深い」といった盲目的な勘違いしないためには、下記アクセンチュアの工藤氏の記事を読むのがおススメだ。
データ分析プロジェクトの成否を分けるのは「目的意識」と「課題認識」---アクセンチュア 経営コンサルティング本部 アクセンチュア アナリティクス 日本統括 工藤 卓哉氏 アクセンチュア テクノロジー コンサルティング本部 シニア・マネジャー 保科 学世氏:ITpro |
同じようなことを理解する上では、下の書籍も参考になる。
では、これらの話を基に、壮大な・・・・と話を広げたいところだが、こじんまりと、都道府県別の未処置歯のあるものの割合と、600以上の様々な項目の1人あたりの支出金額との関係性を調べた。
未処置歯の多い都道府県ほど支出金額が多い項目TOP5
項目
|
相関係数
|
p値
|
ぶどう | 0.420 | 0.0033 |
他の加工肉 | 0.415 | 0.0037 |
航空運賃 | 0.390 | 0.0067 |
干ししいたけ | 0.380 | 0.0084 |
かつお節・削り節 | 0.323 | 0.0268 |
未処置歯の少ない都道府県ほど支出金額が多い項目TOP5
項目
|
相関係数
|
p値
|
教養娯楽賃借料 | -0.488 | 0.0005 |
他の主食的調理食品 | -0.488 | 0.0005 |
れんこん | -0.457 | 0.0012 |
パン | -0.446 | 0.0017 |
ハム | -0.446 | 0.0017 |
試しにぶどうとハムをグラフにしてみた。
どうだろう? 意味があるだろうか。何か因果はあるだろうか。正直、おむつとビールに近いように感じたのではないだろうか。(ここで、前述の本や工藤氏の対談を読み返すべき)
相関から因果を考えることができるようになったというためには、都道府県単位の数値分析ではなく、世帯別データや、個人別データが必要かもしれない。これが世の言うところのビッグデータなのではないだろうか。統計分析を行うときに、因果を考えずにスモールなデータを相手に相関が・・・といったところで、そこから生み出される価値は少ない。であれば、従来の仮説検証をしている方がよっぽど説得力がある。でもビッグなデータならば、本当に価値があるかもしれない。
次回(第10回、最終回)では、ビッグデータの価値創出、ディープデータ(スモールデータ)、スマートデータについて触れてみたい。
どうだろう? 意味があるだろうか。何か因果はあるだろうか。正直、おむつとビールに近いように感じたのではないだろうか。(ここで、前述の本や工藤氏の対談を読み返すべき)
相関から因果を考えることができるようになったというためには、都道府県単位の数値分析ではなく、世帯別データや、個人別データが必要かもしれない。これが世の言うところのビッグデータなのではないだろうか。統計分析を行うときに、因果を考えずにスモールなデータを相手に相関が・・・といったところで、そこから生み出される価値は少ない。であれば、従来の仮説検証をしている方がよっぽど説得力がある。でもビッグなデータならば、本当に価値があるかもしれない。
次回(第10回、最終回)では、ビッグデータの価値創出、ディープデータ(スモールデータ)、スマートデータについて触れてみたい。