機械学習は、近年大きな注目を集めている「AI」、「人工知能」、「ディープラーニング」といった研究分野と深い関わりがあります。機械学習は、人間や動物が経験を通して自然に学習することをコンピューターにさせようとするデータ解析テクニックです。機械学習アルゴリズムは所定の方程式をモデルとして用いることなく、データから直接的に情報を「学習」するコンピューティング手法です。アルゴリズムは、学習に利用可能なサンプル数が増加するにつれて適応的にその性能を改善します。
なぜ機械学習が必要か
ビッグデータの増加に伴い、機械学習は以下のような分野の問題を解決するための重要な技術となっています。
- 金融工学:クレジットスコアリングやアルゴリズム取引
- 画像処理とコンピュータービジョン:顔認識、動き検出、オブジェクト検出
- 情報生命科学:医療診断、創薬
- エネルギー生産:電力需要予測
- 予知保全:機械のメンテナンス、事後保全、予防保全
- 自然言語処理:テキストマイニング、音声認識
機械学習では、より多くのデータがあるほど、より良い回答を導出
機械学習アルゴリズムは、データの中に自然なパターンを見つけてそこから洞察を生み出し、より良い意思決定と予測を行う手助けをします。たとえば、機械学習は、医療診断、株取引、エネルギー負荷予測などの重要な決定を行うために毎日使用されています。また、メディアポータルは機械学習を利用して何百万もの選択肢からあなたにおすすめの歌や映画を提供していますし、小売業者は顧客の購買行動から洞察を得るために機械学習を使用しています。
機械学習をいつ使うべきか
所定の数式や方程式が存在せず、大量のデータセットと多数の変数が含まれている複雑なタスクや課題がある場合は機械学習が有効な選択肢となるでしょう。たとえば、次のような課題には、機械学習が適しています。
機械学習の仕組み
機械学習には2種類の手法があります。
一つは既知の入力データと出力データを用いてモデルを訓練し、将来の出力を予測できる「教師あり学習」。もう一つは、入力データの隠れたパターンや固有の構造を見出す「教師なし学習」です。注目を集めているディープラーニングは教師あり学習、教師なし学習どちらでも応用可能な、機械学習に含まれるアルゴリズムの1つです。
AI・機械学習・ディープラーニングそれぞれの違いと、教師あり・教師なし学習の各アルゴリズムについて見ていきましょう。
AI・機械学習とディープラーニングの違いとは
AI(人工知能)が最も広義の概念です。機械学習はAIに含まれ、ディープラーニングは、機械学習のアルゴリズムの1つでもあります。機械学習とディープラーニングの違いを端的に説明すると、情報処理能力、速度の差が挙げられます。
機械学習では一般的に、特徴量(予測や分類に利用される数値や画像等のデータセット)を人間が定義します。一方で、ディープラーニングでは、後述するニューラルネットワークの技術を応用することで膨大な特徴量を自動で学習をしてくれます。そのため、高い精度で予測や分類ができ、特に音声や言語、画像認識の領域で利用されています。
教師あり学習
教師あり学習は、不確実さがあっても証拠に基づいて予測を行うモデルを構築します。教師あり学習のアルゴリズムは、すでにある一連の入力データとそれに対する応答(出力)を用いてモデルを訓練し、新たなデータへの応答を合理的に予測できるようにするものです。予測しようとする事象について、既存の応答(出力)データがある場合は、教師あり学習を使用します。 教師あり学習では、「分類」や「回帰」の手法を用いて予測モデルを作成します。
分類手法は、離散的な応答を予測します。 例えば、電子メールが本物のメールかスパムメールか、腫瘍が癌の疑いがあるかどうか、といった場合の分類です。分類モデルは、データをカテゴリーに分類するための学習を行います。用途としては、医療画像診断、音声認識、信用評価などが挙げられます。 分類を実行する一般的なアルゴリズムには、 サポートベクターマシン(SVM)、ブースティングおよびバギングされた決定木、k 最近傍法、単純ベイズ、判別分析、 ロジスティック回帰、およびニューラルネットワークが挙げられます。
回帰手法は、連続的な応答を予測します。 典型的な用途としては、売上予測、需要予測、来店者予測、経済分析、温度予測、機器の故障までの時間、電気負荷予測やアルゴリズム取引等があります。 一般的な回帰アルゴリズムには、線形回帰、非線形回帰、正則化、ステップワイズ回帰、ブースティングされた決定木とバギングされた決定木、ニューラルネットワークなどがあります。
教師なし学習
教師なし学習は、データに内在する隠れたパターンや固有の構造を見いだすものです。ラベル付けされた応答を持たない一連の入力データから推論を導き出すために用いられます。クラスタリングは、最も一般的な教師なし学習手法です。これは、探索的データ分析により、データ内の隠れたパターンやグループ構造を発見するために用いるものです。クラスタリングは、遺伝子配列解析、市場調査、および物体認識などに活用されています。
たとえば、携帯電話会社が携帯電話の中継塔の位置を最適化したい場合、中継塔の利用者のクラスター数を見積もるために機械学習を使うことができます。携帯電話が一度に接続する中継局は1カ所のみのためクラスタリングアルゴリズムを使用して、顧客のグループまたはクラスターが最適化された信号受信を受けるために最適な中継塔の配置を設計します。 クラスタリングを実行するための一般的なアルゴリズムには、k平均法およびkメドイド、階層クラスタリング、混合ガウスモデル、隠れマルコフモデル、自己組織化写像、ファジー c 平均クラスタリング、および減法クラスタリングなどが含まれます。
どの機械学習のアルゴリズムを使うか、どう決めるか
教師あり・教師なしの機械学習アルゴリズムは何十種類もあり、それぞれが異なるアプローチで学習します。
最も優れた手法や、何にでも使える手法というものはありません。適切なアルゴリズムを探すには、試行錯誤に頼らざるを得ない部分があります。極めて経験豊富なデータサイエンティストでも、あるアルゴリズムがうまく機能するかどうかは、試してみないと分からないのです。ただしアルゴリズムの選択は、扱うデータのサイズや種類、データから導き出したい見解、その見解の活用方法によって決まる部分もあります。
教師あり学習と教師なし学習の選択に関するガイドラインは次のとおりです。
- 予測(例えば、温度や株価などの連続型変数の将来値の推定)や分類(例えば、ウェブ動画に映っている自動車の型式の特定)を行うモデルの学習が必要な場合は、教師あり学習を選択します。
- 入力データを詳しく調べる必要がある場合や、データをクラスターに分けるなど、データの適切な内部表現を見出すモデルの学習が必要な場合は、教師なし学習を選択します。
機械学習の習得法
データを駆使してよりよい意思決定を行うために、機械学習の力をどのように活用できるでしょうか?
MATLABは機械学習を容易にします。ビッグデータを扱うためのツールや関数と、機械学習を容易に行うためのアプリが備わったMATLABは、データ解析に機械学習を適用するうえで理想的な環境です。 MATLABを使用することで、エンジニアやデータサイエンティストは、プレビルドされた関数、豊富なツールボックス、分類、回帰、クラスタリングなどのアプリケーションにすぐにアクセスできます。
MATLABを使用すると、以下のことが実現可能です。
- ロジスティック回帰、分類木、サポートベクターマシン、アンサンブル法、 ディープラーニングなどのアプローチを比較
- モデルの改良・低次元化ツールを使用することでデータの予測精度を高める正確なモデルを作成
- 機械学習モデルをエンタープライズシステム、クラスターおよびクラウドと統合し、リアルタイム組み込みハードウェアを対象としています
- 組み込み環境でのセンサー解析のための自動コード生成を実行
- データ分析から実装までの統合ワークフローをサポート
機械学習の実用例
芸術作品を解析するアルゴリズム
ラトガース大学 美術・人工知能研究所(the Art and Artificial Intelligence Laboratory)の研究者チームは、コンピューターアルゴリズムが、人間と同じように、絵画を様式やジャンル、画家別に分類できるかどうかの検証を行いました。チームはまず、絵画の様式を分類するための視覚的特徴を特定しました。開発したアルゴリズムは、データベース内の絵画を60%の精度で様式別に分類することができ、専門家ではない一般人を上回るものとなりました。
続いて、様式の分類(教師あり学習の問題)に用いた視覚的特徴は、他の画家への影響の判定(教師なし学習の問題)にも活用可能との仮説を立てました。
彼らは、特定の対象物を見分けられるよう、Google上の画像を用いて学習させた分類アルゴリズムを用いました。そのアルゴリズムを、過去550年間に66人の画家によって描かれた1,700点を超える絵画作品を用いてテストしたところ、ディエゴ・ベラスケスの「教皇インノケンティウス10世の肖像」がフランシス・ベーコンの「ベラスケス作『教皇インノケンティウス10世の肖像』に基づく習作」に影響を与えたことを含め、関連のある作品をいとも簡単に特定することができました。
大規模ビルにおける空調エネルギー使用の最適化
オフィスビル、病院、その他大規模商業ビルの冷暖房空調システムの多くは、気候パターンの変化やエネルギーコストの変動、建物の熱特性を考慮に入れていないため非効率です。
BuildingIQ社はクラウドベースのソフトウェアプラットフォームを活用し上記の問題に対処します。このプラットフォームは、機械学習手法を用いて、電力計、温度計、空調設備の圧力センサーからのデータに、天候やエネルギーコストも加えた何ギガバイトにも及ぶ情報を常時処理しています。中でも機械学習は、データの細分化や、冷暖房プロセスにおけるガス、電気、蒸気、太陽光発電それぞれの相対的寄与率の決定に活用されています。BuildingIQ社のプラットフォームを活用すると、大規模商業ビルにおいて冷暖房空調設備が通常運転時に消費するエネルギー量を、10%~25%削減できます。
機械学習についてさらに詳しく知る
- 機械学習についてどれくらいご存じですか?10問のクイズで機械学習の知識レベルを試してみましょう
- ディープラーニングと従来の機械学習:適切なアプローチの選択
- MATLABではじめるAI
- ディープラーニング これだけは知っておきたい3つのこと
[PR]提供:MathWorks Japan(マスワークス合同会社)