まるで人間のような意思決定、また正確無比な回答を行ってくれる「機械学習」は、現代においてジャンルを問わず、着実に活用の幅を広げています。
ただ、機械学習と一言でいっても、たくさんの種類が存在することをご存知でしょうか。
今回の記事ではそんな機械学習について、代表的な種類、手法、実現できることをくわしく紹介し、知識がゼロの方でも理解しやすい内容にまとめました。
機械学習を活用して効率化を図りたい、また日々の業務に導入することを検討しているという方は、ぜひひとつの参考としてお読みください。
そもそも機械学習とは?
まず、そもそもの「機械学習」について詳しくない方に向けて、かんたんに概要を説明します。
機械学習はAI技術のひとつで、コンピューターに膨大なデータを読み込ませ、そのデータの中の共通パターンや規定・規則をあぶり出す技術のことです。
この技術を繰り返し行えば行うほど、機械学習は精度を増してどんどん賢いものになっていくのですが、このプロセスをAI界隈では「学習」という言い方で表現しています。
そんな機械学習は、大きく3つの種類に分類されるので、次の章でくわしく紹介します。
機械学習の代表的な種類3つ
機械学習の種類として、代表的に取り上げられるものは次の3つです。
教師あり学習
教師あり学習とは、「正解となるデータ」をコンピューターに読み込ませて、それをもとに正解か不正解かの条件分岐を行わせる方法になります。
具体的には精密部品の製造過程などで活用されており、正解データと同じ出来であればOK、異なる出来であればNGといった使い方です。
正解パターンを複数回読ませることで、より正確性を向上させられるのが強みです。
代表的な3種類の中でも、もっともポピュラーなものとして知られています。
教師なし学習
教師なし学習は、教師あり学習とは反対で、「正解となるデータ」をコンピューターに与えずに条件分岐を行わせる方法です。
こちらは「イエスかノーか」を判断するものではなく、傾向を分類したり、抽出したりする用途で用いられます。
たとえば、日本で販売されている市販のお菓子から、
- しょっぱい系と甘い系に分けたい
- カリカリ系としっとり系をそれぞれ教えてほしい
- その中から、ブルボンのものだけを抽出してほしい
といった問いに、絶対的な正解を設定してしまうと、チグハグになってしまうでしょう。
このように、膨大なデータから問いに沿ったものをあぶり出すのが、教師なし学習の特徴です。
強化学習
強化学習は、コンピューター自身が考えながらトライアンドエラーを繰り返し、正確性の向上を図る方法です。
教師あり学習のような絶対的な正解がないので、どちらかというと「AIに考え方や法則・ルールを学ばせる」というニュアンスです。
具体例を挙げると、将棋や囲碁などに特化したロボット。
決まりきった正解はないので、相手の戦術や状況に合わせて、柔軟に考え方を変えなければなりません。
ただ、何度も学習を行わせることでより柔軟な考え方を体得していく点は、教師あり学習と共通しています。
機械学習の代表的な手法7つ
続いて、機械学習の手法としてよく取り上げられるものを7つご紹介します。
ニューラルネットワーク
人間の脳の神経細胞(ニューロン)をお手本として作られた、機械学習のアルゴリズムの一種です。
こちらは主に
- 入力層(データの収集)
- 隠れ層(解析・演算処理)
- 出力層(解答の出力)
の3つによって組み込まれており、それぞれの層が相互に機能することで演算処理を行い、解答を導き出しています。
引用:Pinterest
名称のとおりですが、入力層でデータをインプット、出力層でアウトプットという形になります。
その間にある隠れ層がニューラルネットワークのキモで、入力層で得た情報から分類および演算処理を行い、出力層に送り込むという仕組みです。
概要を理解しようとするとすこし難しい話になってしまいますが、最終的には、読み込まれたデータの共通点を解析し、分類分けを行う用途で頻繁に活用されます。
主成分分析
主成分分析は、コンピューターに学んでもらう情報(特徴量)をなるべく減らす、機械学習手法の一種。
つまり、「なるべく少ない情報量で、より高い精度の答えを出せるようにする」というのが狙いです。
コンピューターに学ばせる情報量は多ければ多いほど精度は上がるものの、演算処理に膨大な時間がかかったり、ハードウェアに大きな負荷がかかるケースもあるからです。
主に変数の関係、共通点を探し出す目的で使われます。
ロジスティック回帰
ロジスティック回帰は、「分類」や「確率計算」に強い機械学習手法として知られています。
いくつかの変数が揃ったときに、それらから「ある事象」が起こりうる確率を計算したり、その結果がどういったジャンルに区分けされるのかを分類することに長けているのが特徴です。
ロジスティック回帰は一般的に確率計算の場面で活用され、たとえば生産現場から「不良品が発生する可能性」を数値化することなどに役立てられています。
ナイーブベイズ
ナイーブベイズも、確率の算出に長けた、機械学習の分析手法の一種です。
データが特有のジャンルに分類される可能性を算出し、その可能性がもっとも高いジャンルに自動で分類することが特徴です。
ちなみに名称は、トーマス・ベイズによる「ベイズの定理」から名付けられています。
演算処理がシンプルで高速なことから、莫大なデータ量にも適しているため、複雑な課題にもうまく順応できることがポイントです。
ただその分のトレードオフとして、他の手法と比較すると若干精度が落ちる点がネックとなります。
ランダムフォレスト
ランダムフォレストは、「決定木」をいくつも集合させて、より精度を向上させたものという認識で差し支えありません。
決定木とは条件分岐を得意とする分析手法のことで、分類と回帰の2つの組み合わせで、複雑な分類を実現しています。
この決定木を複数集めることで「多数決」のような条件を追加し、さらに高度な条件分岐を可能にしたものが、ランダムフォレストというわけです。
人の手で定義する項目が少ないことから、他の手法に比べて活用が簡単である点がメリットとして挙げられます。
SVM(サポートベクターマシン)
名称に「マシン」という用語がありますが、こちらも機械学習における代表的な分析手法の一種で、主にデータのしきい値(境界線)を用いて分類を行います。
考え方としては、異なる2種類の要素のちょうど中間を、なるべく余白(マージン)が大きくなるように線引きを行うことが目的です。
データ量が少なくても、的確な分類を再現できるメリットから、活用の幅を広げています。
k近傍法
類似しているクラスを判別し、その共通点を数値で表す手法が、こちらの「k近傍法」です。
時系列で並んでいる情報との距離を測定し、そこから「正常か否か」を判断する、前述した「教師あり学習」に似たようなロジック。
数ある機械学習アルゴリズムの種類と比べても、とくにシンプルで使いやすいのが特徴です。
ただし学習には大容量のメモリを備えたコンピューターが必要になり、データの量によっては処理に時間がかかることがネックとなります。
なお、現場やプロジェクトによっては「ニアレストネイバー法」という名称で呼ばれることもあります。
機械学習で実現できること7つ
機械学習を使って実現できることとして、主に次の7つがあります。
数字や値の予測
機械学習が実現する「予測」は、実際に飲食店および小売店といった場所で、売上や来客数を算出する際に役立てられています。
これまでのデータを読ませることで導かれるAIの正確無比な数字は、いまや企業の経営戦略に欠かすことはできません。
また、「どの時期にどれくらいの数字が見込める」という予測は、マーケティングの局面でも有効活用されています。
データ分類ルールの設定
読み込ませたデータをある条件で、精密に分類することが可能です。
機械学習技術が今ほど発展していなかったときは、指定できるルールの条件の数に限りがありました。
現代はその問題を解決し、分類のルールを細かく、なおかつ複数を自由に設定することで、分類の精度を上げることができます。
要素の削除および簡略化
不要なデータを削除し、情報を簡略化することも、機械学習が実現できる分野のひとつ。
ごちゃついたデータ群の中から必要なものを抽出しようとすると、ムダな処理時間がかかってしまいます。
不要なものを消してスッキリさせることで、処理速度の向上はもちろん、回答の精度アップにも貢献します。
データのカテゴライズ・グルーピング
データをカテゴリやグループごとに分類することも、機械学習が得意とする分野です。
売上促進のための分析において、要素のグルーピングが必要になる局面は多々あります。
企業でよく導入されている手法としては、「クラスタリング」が挙げられるでしょう。
他にも上記で紹介しているものだと「k近傍法」や、「SVM(サポートベクターマシン)」が該当します。
最適な選択肢の抽出・特定
最適な選択肢の抽出、および特定を機械学習に任せれば、人間以上の精度を発揮してくれるでしょう。
たとえば動画プラットフォームやSNSを見ていると、自分の興味にぴったり合うものが次々と表示され、閲覧をやめられなくなります。
この技術は広告や通販などでも応用されており、今後はさらに精度を上げ、活用幅も広がるとされています。
画像および物体の異常検出
異常の検出も、機械学習が人間以上の精度で実現してくれます。
正解となるサンプルを複数読み込ませることで、スピーディーかつ正確に異常を見つけ出すことが可能。
人間ならではの「集中力の欠落による見落とし」などが発生しないその利便性から、幅広い生産工場で導入されています。
自然言語処理
コンピューターが理解できる言語を「プログラミング言語」、一方で人間が日常的に使う言語を「自然言語」といいます。
通常コンピューターは自然言語をいっさい理解できませんが、それを可能にする機械学習技術が「自然言語処理」です。
具体的な活用例としては、
- 自然言語で書かれた文章を理解し、適切な文章を返すチャットボット
- 自然言語でしゃべった内容を理解し、受け答えを行うスピーカー
などがあり、すでに日常に浸透しつつある技術です。
機械学習の種類の選び方
ここまで述べてきたとおり、機械学習にはさまざまな種類がありますが、どれをどのように選べばいいのでしょうか。
本章では、その選び方を紹介します。
用途や目標から逆算して選ぶ
手法を選ぶなら、まず用途や目標、やりたいことから逆算しましょう。
機械学習の導入には、
- 不良品の判別を自動化したい
- この先の売上を予想してほしい
- 膨大でごちゃついたデータを分類したい
- プロジェクトに重要な情報のみ抽出したい
のような「目標」があるはずです。
やりたいことを決めてから、手法の種類や活用例としてどのようなものがあるのか、調べることが大切です。
学習や予測の精度から選ぶ
人の命を預かるなどといった、大きな責任を抱えるシステムであれば、精度の高い機械学習を選ぶことは必須です。
一方で娯楽目的で制作されたような、責任の小さなシステムであれば、それほど凝った精度を求める必要はないでしょう。
このように、機械学習の精度を優先して選ぶのもひとつの手段となります。
ただ精度が上がれば上がるほど、時間とお金のコストがかかることは念頭に置いておきましょう。
計算時間の長さで選ぶ
計算スピードを考慮して選ぶのも手です。
基本的に機械学習は、分析の精度が上がれば上がるほど、処理のスピードが落ちるものです。
精度よりも速度優先のものであれば、精度や正確さを犠牲にすることも戦略のひとつといえるでしょう。
ただ極端に速度を優先するあまり、著しく正確性に欠けてしまっては信頼が失われるので、「ほどほど」を意識してください。
「機械学習 種類」についてよくあるQ&A
この章では、機械学習の種類についてよく検索されている質問にお答えします。
機械学習とディープラーニングの違いは?
機械学習は、コンピューターに情報を読み込ませて、その中からパターンや規則性を見つけ出す技術の総称です。
ディープラーニングはその機械学習技術のひとつであり、従来のものとは段違いの性能をもつ技術です。
現代のAIの発展には、ディープラーニングの技術が大きく関係しているといっても過言ではありません。
教師あり学習と教師なし学習の主な違いは?
違いを一言でいうと、「絶対的な正解があるかないか」です。
教師あり学習は、絶対的な正解データを定義のうえ、正解か間違いかを判断するもの。
教師なし学習は、絶対的な正解データを定義せず、傾向や予測を分析するものです。
機械学習の学習データとテストデータの違いは?
文字どおりですが「本番で使うか、実験で使うか」が、両者の違いです。
学習データとは、「AIに覚えてもらいたい情報」の総称。
教師あり学習や教師なし学習、また強化学習で使うデータもすべて「学習データ」に該当します。
一方のテストデータは、AIのテストの際に用いられるデータの総称です。
学習段階でまったく使ったことのないものを読ませ、どのような回答を返すかテストするために用いられます。
まとめ:機械学習の種類を把握して有効活用しよう
機械学習の手法を選ぶときは、まず第一にどんな分野で何を実現したいかを定めること。
その後に適切な手法を選ぶことになりますが、そのためにはさまざまな種類をある程度把握しておくことが大切です。
手法それぞれに個性があり、得意不得意も顕著に分かれるので、しっかり自分で下調べを行いつつ、導入を検討しましょう。