機械学習のクラスタリングとは?メリットや具体的な手法について解説
クラスタリング(clustering)とは、機械学習の1種でデータ間の類似度にもとづいて、データをグループ分けする手法です。この単語は機械学習や統計学の文脈以外でも使われることが多いため、これらの分野で用いられる際にはクラスタ分析やデータ・クラスタリングと呼ばれるのが通例となっています。
この記事では、「機械学習」をテーマに、機械学習や統計学の文脈でのクラスタリングの概要や分類との違い、そのメリットや具体的な手法について解説していきます。
クリスマスまでの期間に、窓を毎日ひとつずつ開けていく「アドベントカレンダー」。
今年はそんなアドベントカレンダーにちなみ、株式会社トライエッティングの公式noteにて、「人工知能」、「機械学習」、「働き方」などをテーマとする様々な記事を、クリスマスまでの平日毎日投稿します。
クラスタリングとは
クラスタリングは教師なし学習の1種であり、その中でも一般的な学習手法です。クラスタリングとは、ある特徴量空間上のデータを複数のクラスに分類する手法です。
混合されやすい「分類」との違い
クラスタリングは「データをグループ分け」するという説明から頻繁に「分類」と混同されますが、この2つは異なった意味の用語です。具体的には、分類は教師あり学習なので、常にどのグループに所属するかの答えをもとに学習したモデルを使い、答えが未知のデータの所属先を予測します。一方、クラスタリングは教師なしの学習で行うため、データのもとに特徴を学習した上でグループ分けをします。
クラスタリングの種類
クラスタリングにはハードとソフトの2種類があります。それぞれのデータが単一のグループに所属するようにグルーピングするものをハードクラスタリング、それぞれが複数のグループに所属できることを許してグルーピングするものをソフトクラスタリングといいます。
クラスタリングの手法を導入するメリット
クラスタリングはデータの特徴や構造を捉える手法として非常に有用であり、マーケティングをはじめとする営利活動だけでなく、天文学や考古学などのアカデミックな分野でも活用されています。以下では企業活動にクラスタリングを導入することで得られるメリットを3つ紹介します。
最適なターゲット市場を選定できる
マーケティングの基本的な考え方の一つにセグメンテーションがあります。これは顧客の性別や年齢、趣味、嗜好などにしたがって顧客市場を細分化することです。このようにして顧客をセグメントに分類し、自社製品に見合ったグループに訴求することは効果的なマーケティング戦略になります。そして、セグメンテーションの実施にはクラスタ分析がよく利用されます。この場合、顧客が持つどの属性をセグメンテーション変数として使うのがよいかは、分析の目的に合わせて選別する必要があります。
競合に対して差別化戦略を行える
新製品の企画開発や市場投入にあたって、企業はキャンペーンなどさまざまな施策を行いますが、この場合には競合他社の製品や市場の調査が不可欠です。クラスタリングはそのような分析にも応用することが可能です。分析にかけたのち、自社の新製品と他社の既存の商品が同じクラスタに分類された場合、自社製品の新規性を打ち出すなど、差別化戦略を取る必要が出てきます。また、反対にクラスタリングを行うことでまだどの企業も参入していない、空白のマーケットを発見することも可能です。
効果的なテストマーケットの実施
多くの企業はマーケティング施策などを実際に行う前段階として、テストマーケットにて施策の事前評価を行うことが一般的です。それゆえ、テストマーケットの選定はマーケティング施策の成否を決める重要なプロセスです。クラスタリングはこのような場合にも応用することができます。具体的には、形成された各クラスタからテストマーケットを選出することで、それぞれのマーケット間の異質性とテストの網羅性を担保し、効果的なテストが実現できます。
階層的クラスタリングの手法
クラスタリングを行うためのアルゴリズムには、階層クラスター分析(=階層クラスタリング)と非階層クラスター分析(=非階層クラスタリング)の2種類があります。階層クラスター分析とは、集合体のデータのうち、最も似ている組み合わせから先にまとめていく階層的手法です。非階層クラスター分析を解説する前に、まずはこの方法から解説していきます。
群平均法
「群平均法」は、2つのクラスターに属している対象の間のすべての組み合わせの距離を求め、それらの平均値をクラスター間の距離として定める手法です。群平均法は鎖効果を防止できるメリットがあるためウォード法を実行した時に起こってしまう鎖効果(1つのクラスターに対象が1つずつ吸収されていき、新しいクラスターが作られる現象)を未然に防ぐことができます。
ウォード法(最小分散法)
「ウォード法」は、凝集型のクラスター分析の手法の1つで「凝集型階層的クラスタリング」とも呼ばれています。ウォード法はすでにあるクラスターの中で、1番距離の近い2つのクラスターが選ばれ、1つのクラスターに結合されていく操作を、目標のクラスター数になるまで続ける方法です。
最短距離法
最短距離法は単連結法とも呼ばれる、2つのクラスタ間で一番近いデータ同士の距離を、クラスタ間の距離として採用する手法です。群平均法と同様に、クラスタを構成する要素同士の距離をすべて求め、その中で一番距離の短い組み合わせを選ぶことでクラスタ間の距離として求めます。この方法のメリットはウォード法などと比較した場合に、計算量が少なくなりますが、同時に外れ値に弱いというデメリットも抱えています。
最長距離法
最長距離法は上述の最短距離法とは反対に、クラスタを構成する要素同士の距離の中で最長のものをクラスタ間の距離として採用します。
非階層的クラスタリングの手法
非階層クラスタリングは、階層を作らずにデータをグルーピングしていく手法です。母集団の中で近いデータを収集し、指定された数のクラスタに分類します。この方法では階層クラスタリングとは対照的に、クラスタを形成した後で自由にクラスタを分けることができないため、事前にクラスタ数を指定する必要があります。
クラスタリングが活用できる事例
では、実際にクラスタリングが活用されているシステムにはどのようなものがあるのでしょうか?以下では具体例として「ECサイトの顧客分析」と「画像の減色処理」の2つを紹介していきます。実際の活用例を知ることで、自社に環境や抱えている課題に近いアプローチを探ってみましょう。
ECサイトの顧客分析
クラスタリングの有効な活用方法の一つは、ECサイトなどにおける顧客分析です。CRMや広告出稿を行う際、CVRを最大化するために、最もよく使われる分析手法です。ユーザーに自社の商品を販売するにあたり、特定の属性を持つユーザーにどの施策が適切かを把握しておけば、高い効果が期待できます。
画像の減色処理
もう一つの活用事例は画像の減色処理です。機械学習のアルゴリズムの1つである「k-means法」を活用することで画像の代表色を指定し、減色処理を実行することで容量を削減することができます。
弊社サービス「UMWELT」をちょこっとだけ宣伝
TRYETINGのUMWELTはコードを書くことなくドラッグ&ドロップの操作のみでAI構築ができます。そのため、AIシステムを社内に導入するために新たにデータサイエンティストを雇う必要はありません。
UMWELTは学習コスト、人的コストが最小限に抑えられ、さらに業界最低⽔準の⽉額利⽤料で導入できることも魅力です。手軽に社内システムをAI化するなら、TRYETINGのUMWELTをご検討ください。
SNSやマガジンはこちら
▼Twitter
▼マガジン
「アドベントカレンダー2021」
「TRYETINGの制度とカルチャー」