線形分類器
● 機械学習の種類
機械学習は大きく分けて識別関数、識別モデル、生成モデルという3つのアプローチがあります。
◇識別関数:入力データを見て、特定のクラスに属するよう識別
—代表的な手法
・パーセプトロン
・サポートベクターマシン
◇識別モデル:入力データからクラス事後確率をモデル化して識別
—代表的な手法
・ロジスティック回帰
・ニューラルネットワーク
・決定木
◇生成モデル:入力データがどのような分布で生成されたものかをモデル化して識別
—代表的な手法
・ナイーブベイズ(単純ベイズ)分類器
・その他ベイジアン全体
● 線形識別器
ここでは、識別関数について説明します。さて識別するとはどういうことでしょうか。
2クラスの識別問題について考えていきます。まず、図で考えてみましょう。
ここではスパムメール検知を例としています。
スパムではないメールを代表するプロトタイプを緑の点とし、スパムメールを代表するプロトタイプを赤の点とします。
両プロトタイプから等距離に引かれた直線を描きました。この直線は各プロトタイプから等距離にあるため、新しいメールを受信した際に、その属性がこの線より緑の点に近ければスパムでないメール、赤の点に近ければスパムメールだと考えること出来ます。
このように、入力データを各クラスに識別するような直線を超平面(あるいは決定境界や識別面)といいます。
つまり、識別する=超平面を求めることです。そして、超平面を求めるとは、正しいプロトタイプを適切に設定するということでもあります。なぜなら、ここでいう超平面とは各プロトタイプから等距離に位置するものだからです。また、このように超平面で完全にクラスを分離出来る場合を「線形分離可能である」といいます。