Mahout関連のまとめはこちら
機会学習を学んでいると、ClusteringとClassificationという単語が登場します。Mahoutのアーキテクチャでも、この両者が登場しますが、どのように違うのでしょうか。日本語に直そうとすれば、どちらも「分類」に訳してしまいそうです。悩んでいたところ、あるWebサイトがスッキリと解説してくれていたので紹介したいと思います。
クラスタリングとクラス分類って違うらしい
クラスタリングとクラス分類
Clustering(クラスタリング)
クラスタリングは、既知の分類方法では見えなてこない情報を読み取るための方法となります。クラスタリングの対象となるデータから属性を抽出し、各属性を次元軸としてN次元空間を定義します。その空間に対して対象となるデータをプロットしていきます。空間内での距離が近いもの同士をグループ化して分けていくことがクラスタリングです。
Classification(クラス分類)
それに対して、クラス分類は、予め用意されている正解例に従い、対象となるデータを分類していく方法です。例えば、人の属性に着目すれば、性別・年齢・居住地などがあるでしょう。性別=男女、年齢=10代・20代・30代・・・、居住地=京都・大阪・兵庫・・・などに分類していきます。
クラス分類は、明確に「ある属性」に着目して分類をします。クラスタリングは、各属性(クラス分類とも言える)を俯瞰して、そこから見えてきた状態で分類をします。
0 件のコメント:
コメントを投稿