データマイニングと従来の統計解析には、同じところや重複する部分が、かなりあります。
では、データマイニングと統計処理における大きな違いは、どこにあるかといいますと、それは「データの量」にあります。
データマイニングでは、膨大な情報を用いて分析を行います。
その結果分析の目的も異なってきます。
企業が従来の統計解析を使用しての、データ分析を行おうと考えた時には、データ収集の為に、調査会社に頼んでデータの収集を行ったり、アンケート調査を自ら実施するなどして、データを収集する事からデータ分析がスタートしていました。これらの方法では安定した結果を得ることができます。
ところが、この方法では、「最初に収集したデータ」の枠を超えて分析行為を行うことはできない。
もちろん分析を行う人はできるだけ広範囲の情報を収集しようとするし、熟練した分析者は、正しい結果を導くためにどのような情報が必要か、極めて適切にスクリーニングすることができるが、こういった属人的な手法ではデータ分析のハードルが高くなったままです。
さらに、データ収集時に、取捨選択が行われるということはバイアスがかかってしまう可能性があります。
例えば、缶ビールの売り上げを調べる際に、集めるデータとしては下記のようなものが考えられる。
・月別の缶ビールの売り上げ
・月別の飲料品全般の売り上げ
・月別のアルコールの売り上げ
などがあげられる。
これらの「缶ビールの売り上げに関係がありそうなデータ」だけを基に分析したとすると、データを収集した者の想像の範囲内のみで収まってしまい、
「そんなことは想像もつかなかった」という仮説に関しては最初の段階で排除されてしまうことになる。
従来型のデータ収集方式では、とても時間がかかっていた上に、高コストであったため、企業がデータマネージメントを導入しようと考えてもどうしても二の足を踏む状況でありました。なので、多くの企業は今公官庁で出版された白書や年鑑などを主な情報源としておりました。ですが、白書や年鑑では、何か月もかけてデータをとり、分析が終わるまでには、1年近くかかってしまっており、分析結果が出た時には、鮮度が命のデータの意味がなくなったりしていました。
従来はこういった方法で収集されていたデータだが、事態を劇的に変える環境変化が生じた。情報機器の爆発的な普及と低コスト化、特に演算装置と記憶装置の発達である。
データマイニングの為の「大量・多様」かつ「活きたデータ」がデータマイニングで使われるデータの大きな特徴であるといえるだろう。