「まずは何が知りたいのかを知る」
データマイニングとは、大量のデータから何らかの法則性を発見するために実施します。
そのデータ分析の目的によって様々な手法が存在するため、
まず、自分たちがどのような問題を解決するために、データマイニングを行うかを明確にします。
具体的には次のような問題に使います。
- 分類
例:家族連れ、男性、女性などの属性にグループ分けする
- 連関
例:チョコレートを買う人と、牛乳を買う人の関連性を知りたい。
- 判別
例:BMIが25を超えると肥満といえるだろう。(分類と似ているが、判別はデータ解析をすることによって、グループが判明する)
- 予測
例:来月の売り上げを過去のデータから予測する。
データマイニングを実施する目的が決まりましたら、用いる手法も決まります。
データマイニングで用いられる多くの手法が、統計解析で用いられていた手法であり、データマイニングでも多くは有用となっております。
下記がよく用いられる代表的な手法となります。
- 分類のための手法
クラスター分析
主成分分析
コレスポンデンス分析
ニューラルネットワーク
- 連関のための手法
マーケットバスケット分析
時系列パターン分析
類似時系列パターン分析
主成分分析
コレスポンデンス分析
- 判別のための手法
ロジスティック回帰分析
決定木(分類の木)
線形判別関数分析
ニューラルネットワーク
- 予測の為の手法
回帰分析
非線形回帰分析
決定木(回帰の木)
ニューラルネットワーク
- データの視覚化の外れ値摘出のための手法
ヒストグラム
箱ひげ図
散布図
折れ線グラフ
決定木分析例:傘の決定木
天気予報 |
傘必要なし |
降水確率 |
晴れ |
雨 |
30% |
90% |
大き目の傘をもっていく |
折りたたみ傘で十分 |
上記の回帰分析や決定木分析は、基本的な統計解析の分野でも頻繁に行われています。
これらの分析手法を組み合わせることによって、データマイニングを行います。
参考文献
[1] 内田 治:「例解 データマイニング入門」日本経済新聞社, 2002
[2] 岡嶋 裕史:「数式を使わないデータマイニング入門 隠れた法則を発見する」光文社,2006