見出し画像

【完全版】機械学習の手法11選!覚えておきたい手法を一挙ご紹介します

機械学習とは、AIの1つの要素技術であり、コンピュータに大量のデータを入力し、データに潜むパターンやルールを発見させる技術です。
しかし、一口に機械学習と言ってもその手法はさまざま。解決すべき課題に対して、方法論は変わってきます。
そこで、今回は「機械学習」をテーマに、機械学習の手法について解説します。

クリスマスまでの期間に、窓を毎日ひとつずつ開けていく「アドベントカレンダー」。
今年はそんなアドベントカレンダーにちなみ、株式会社トライエッティングの公式noteにて、「人工知能」、「機械学習」、「働き方」などをテーマとする様々な記事を、クリスマスまでの平日毎日投稿します。

機械学習の分類

教師あり学習
教師あり学習とは、正解のデータが用意されており、正しい出力ができるように入力データの特徴やルールを学習していく手法です。
教師あり学習はさらに、既存のデータをもとに、タスクごとに設定されたいくつかのクラスに識別する「分類」と、連続する値を予測する「回帰」に分けられます。

教師なし学習
教師なし学習は、正解データなしで入力したデータの特徴やルールを学習して分析する手法です。データを与えることにより、データの構造、パターンなどを抽出しながらモデルを構築していきます。
代表的な教師なし学習には、似た特徴を有するものを同じクラスに分類する「クラスタリング」があります。

強化学習
強化学習は、「環境」と「エージェント」という2つの要素からなるシステムにおいて、「エージェント」が「環境」の中で最もよく振る舞うように学習する手法です。
「環境」は、「エージェント」の行動によって与える報酬を変化させます。「エージェント」は「環境」の中で最も多く報酬が得られるような振る舞いを、試行錯誤しながら学習します。

深層強化学習
深層強化学習は、深層学習と強化学習を組み合わせた手法です。強化学習の手法の一つであるQ学習と深層学習を組み合わせたものを、DQN(Deep Q-Network)と呼びます。Q学習では、エージェントが次に行う行動における報酬の期待値をQ関数と呼ばれるもので表現しますが、DQNではこのQ関数をニューラルネットワークで予測します。

半教師あり学習
半教師あり学習は、少数のラベルのついたデータと大量のラベルのないデータが用意された際における学習手法です。この2種類のデータによって、少数のラベルのついたデータのみの教師あり学習よりも高い性能を得るために考案されました。一般に、ラベルのついたデータを大量に用意するのは大きな時間的・金銭的コストがかかるため、少ないラベルなしデータで効率良く学習する方法として注目を浴びています。

機械学習の手法11選

サポートベクターマシン(SVM)
サポートベクターマシン(SVM)とは、2つのクラスを特徴量空間上で分離する線形関数(超平面)を求めるアルゴリズムです。アルゴリズムです。少ないデータ量でも正しく分離しやすいというメリットがあります。

ロジスティック回帰
ロジスティック回帰は分類問題を解くモデルです。入力が与えられた時、その入力がどのクラスに分類されるかだけでなく、どれくらいの確率で分類されるかを出力します。例えば2クラス分類では、このモデルはある事象が発生する確率を予測し、50%より確率が大きければ、「ある事象が発生する」というクラスに分類し、そうでなければ「ある事象が発生しない」というクラスに分類します。

ランダムフォレスト
ランダムフォレストは、複数の異なる分類木でそれぞれクラスを予測させ、多数決でどのクラスへ分類するかを決定していくアルゴリズムです。人間があらかじめ決定しなければならないパラメータが少ないため、扱いが容易であるというメリットがあります。

Feed Forward Neural Network
ニューラルネットワークとは、人間の脳神経系のニューロンから着想を得た数理モデルであるニューロンを組み合わせて層状のネットワークにしたモデルです。このニューラルネットワークを巨大化・複雑化することで、様々なタスクにおいて高い性能が発揮されることがわかってきました。FFNN(Feed Forward Neural Network:順伝播型ニューラルネットワーク)では、層は基本的に入力層、隠れ層、出力層に分けられます。データを入力層に入力し、順に値を隠れ層に伝播させ、最後に出力層に値を伝播させることで値を導出します。

ナイーブベイズ
ナイーブベイズは、分類問題を解くためのモデルで、確率論の定理であるベイズの定理を基にしています。
計算量が少なく処理が高速であるため、大規模データにも対応できる上、非常にシンプルで現実世界の複雑な問題に対してもうまく機能します。一方で、入力する特徴量が独立であると仮定しなければならないという制約があります。

主成分分析
主成分分析は、高次元の特徴量を圧縮し、二次元や三次元空間にマッピング(射影)する手法です。特徴量空間上で、遠くに存在するデータ同士は圧縮しても遠くに配置されるという特徴があり、圧縮する際にどれだけの情報が保たれたかを簡単に算出することができます。二次元や三次元空間でマッピングすれば、グラフとしてデータの分布を図示することができるので、データの可視化によく用いられます。

k近傍法
k近傍法とは、分類タスクにおいて予測したいデータに特徴が近いk個のデータの属するクラスから、データのクラスを決定するアルゴリズムです。ただし、k近傍法ではすべての要素までの距離を計算する必要があるため、データが大きくなるほど膨大な数の計算が必要となり、データ量が制限されてしまうなどの欠点があります。

k-means
k-meansは、クラスタリングという、データを性質の近い分類同士でグループ分けする手法の一つです。クラスター数を決定すると、全てのデータが決められた個数のクラスターのいずれかに属します。

Recurrent Neural Network
RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)とは、ニューラルネットワークのモデルの一つです。
ネットワーク内部に再帰構造を持つという特徴があり、時系列データの解析や自然言語処理といったタスクにおいて効果を発揮します。上であげたFFNNは、特徴量は固定長でなければいけません。しかしテキストや時系列データは可変長であるため、FFNNではそのまま入力できないという課題がありました。RNNでは、可変長の入力を扱うことができるため、可変長の特徴量を固定長の特徴量に変換するためによく利用されます。

Generative Adversarial Networks
GAN(Generative Adversarial Networks:敵対的生成ネットワーク)は、入力されたノイズデータから新しいデータを作り出して出力する、生成モデルと呼ばれるモデルの一つです。
GANは、データを生成する「生成器」と、与えられたデータが教師データか生成データか判別する「識別器」から構成されます。生成器は、識別器を欺くように学習し、識別器は生成データを正しく判別するように敵対的に学習します。学習が進むと教師データと見紛うような出力データを生成することができるようになります。架空の人物の顔写真生成などが有名です。

Convolutional Neural Network
CNN(Convolutional neural network:畳み込みニューラルネットワーク)は、畳み込み層とプーリング層をもつニューラルネットワークです。
古典的なフィルタリング処理に着想を得ており、画像から特徴量を抽出するために効果的なモデルです。畳み込むためのフィルタをカーネルと呼びます。

弊社サービス「UMWELT」をちょこっとだけ宣伝

今回取り上げた機械学習の手法は数ある中の一つです。チートシートがあるとはいえ、様々な手法を扱えるようになるには、多くの勉強時間を割かなければいけません。
TRYETINGのUMWELTはコードを書くことなくドラッグ&ドロップの操作のみでAI構築ができます。そのため、AIシステムを社内に導入するために新たにデータサイエンティストを雇う必要はありません。
UMWELTは学習コスト、人的コストが最小限に抑えられ、さらに業界最低⽔準の⽉額利⽤料で導入できることも魅力です。手軽に社内システムをAI化するなら、TRYETINGのUMWELTをご検討ください。

SNSやマガジンはこちら
▼Twitter

▼マガジン
「アドベントカレンダー2021」

「TRYETINGの制度とカルチャー」

illustrations by Storyset


当社では事業拡大に伴い、さまざまなポジションで人材を募集しています。 トライエッティングが気になった方は、採用サイトからぜひお問い合わせください!