NECは8月19日、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を新たに開発したと発表した。

近年、ディープラーニング技術はセーフティ、ものづくり、インフラ保全など幅広い分野での活用が広がっており、例えばものづくりの分野では製品の外観検査において、人材確保が難しい熟練検査員をカメラによる画像認識で代用したいという要望があり、外観検査をディープラーニングで行うには不良品データを学習する必要があるものの、発生頻度の低い不良品は大量に得ることが難しいため、不良品データの収集や不良品を模擬したデータ作成に多大な時間とコストを要していた。

このような問題に対し、従来はデータ拡張と呼ばれる、学習データを意図的に加工・変形させることでデータ量を人工的に増やす手法が用いられていたが、識別精度を高める効果的な学習データの生成までには至っていなかったことに加え、対象のデータ種類に応じて専門家がデータの増やし方を調整する必要があるため、さまざまな種類のデータに短期間に適用することは困難だったという。

新技術は「必要となる学習データを従来技術に比べ半分に削減」「データの種類の違いによる専門家の調整が不要」の2つの特徴を持つ。

  • 従来技術と新技術の違い

    従来技術と新技術の違い

必要な学習データを半減させることについては、識別精度の向上には識別が難しい「苦手な学習データ」をより多く学習することが有効であると広く知られているが、データ拡張と呼ばれる従来技術ではニューラルネットワークに入力する前にデータを意図的に加工・変形させ、学習データ量を人工的に増やしていた。しかし、苦手な学習データの量が不十分、かつ識別精度向上に寄与しないデータも多く生成され、十分な学習効果が得られなかったという。

そのため、新技術はニューラルネットワークの中間層で得られる特徴量を意図的に変化させることで、識別が失敗しやすい苦手な学習データを集中的に人工生成し、識別精度を高めることを可能としており、公開データベース(手書き数字認識:MNIST、物体認識:CIFAR-10)で評価した結果、学習データ量が半分でも従来技術と精度が変わらないことを確認した。

専門家の調整が不要な点に関しては、従来のデータ拡張ではデータの種類ごとにデータの生成方法を変える必要があり、例えば画像では大きさや回転角度など、音声では声の高さや話す速さなどを変えることでデータを人工的に増やしていたという。

また、専門家がデータ生成方法を慎重に選び、学習に悪影響を及ぼすデータが発生しないよう調整する必要があったが、新技術はニューラルネットワーク内部の数値に基づいて自動的に学習データを生成するため、多様なデータに対して汎用的かつ効率良く適用することができ、専門家による調整を不要にするとしている。