データマイニングの基本手法
そのデータ分析の目的によって様々な手法が存在するため、まず、自分たちがどのような問題を解決するために、データマイニングを行うかを明確にします。具体的には次のような問題に使います。
・分類
例:家族連れ、男性、女性などの属性にグループ分けする
・連関
例:チョコレートを買う人と、牛乳を買う人の関連性を知りたい。
・判別
例:BMIが25を超えると肥満といえるだろう。(分類と似ているが、判別はデータ解析をすることによって、グループが判明する)
・予測
例:来月の売り上げを過去のデータから予測する。
データマイニングを実施する目的が決まりましたら、用いる手法も決まります。
データマイニングで用いられる多くの手法が、統計解析で用いられていた手法であり、データマイニングでも多くは有用となっております。
下記がよく用いられる代表的な手法となります。
・分類のための手法
クラスター分析
主成分分析
コレスポンデンス分析
ニューラルネットワーク
・連関のための手法
マーケットバスケット分析
時系列パターン分析
類似時系列パターン分析
主成分分析
コレスポンデンス分析
・判別のための手法
ロジスティック回帰分析
決定木(分類の木)
線形判別関数分析
ニューラルネットワーク
・予測の為の手法
回帰分析
非線形回帰分析
決定木(回帰の木)
ニューラルネットワーク
・データの視覚化の外れ値摘出のための手法
ヒストグラム
箱ひげ図
散布図
折れ線グラフ
決定木分析
例:傘の決定木
天気予報
傘必要なし
降水確率
晴れ
雨
30%
90%
大き目の傘をもっていく
折りたたみ傘で十分
上記の回帰分析や決定木分析は、基本的な統計解析の分野でも頻繁に行われています。
これらの分析手法を組み合わせることによって、データマイニングを行います。
参考文献
[1] 内田 治:「例解 データマイニング入門」日本経済新聞社, 2002
[2] 岡嶋 裕史:「数式を使わないデータマイニング入門 隠れた法則を発見する」光文社,2006




