東芝は3月13日、工場やプラントなどのインフラ分野において、蓄積された機器の図面・仕様書や、点検・トラブル記録といった専門的な文書(専門データ)を高効率・高精度に認識し、保守点検の効率化を実現する、専門分野に特化した文書理解AIを開発したことを発表した。

同成果の詳細は、2023年3月13日から17日にかけて開催されている「言語処理学会第29回年次大会(NLP2023)」にて発表された。

工場やプラント、ビルなどの設備は、老朽化や人手不足に伴うメンテナンスの継続が課題となっており、省人化につながるリモートメンテナンスなどの保守点検サービスの実用化などが求められている。

そうした老朽化した設備の保守点検を高い精度で実施するには、対象設備に関する高度な知識や過去に実施された保守点検の経緯を把握することが必要であるが、そうした設備に対する高度な知識や経験が蓄積されている保守点検記録などの専門データの多くが、その後の保守点検業務に活用できるほど十分に整理されていないという課題があった。

また、文書の高精度理解に向けて大規模な汎用言語モデルの活用が期待されているが、そうした言語モデルは、計算規模が大きく大量の計算リソースが必要であったり、インフラ保守現場特有の言語を追加学習させる必要があるなど課題があった。

そこで東芝では今回の研究にて、一般的に入手可能な大規模汎用言語モデル(教師モデル)から、効率よく一般用語を学びながら、少ない専門データを用いた別カリキュラムで適用分野の専門用語も同時に学習させることで、短時間で教育できる手法を開発したという。

具体的には、一般用語を習得した大規模な汎用言語モデルを教師モデルとして、教師モデルからの継承(モデル蒸留)で一般用語を学習すると同時に、別カリキュラムで専門用語も学習する小規模な特化言語モデル(生徒モデル)を生成。これら教師モデルと生徒モデルそれぞれに、複数の単語を隠した同じ専門データを入力し、生徒モデルは、隠された単語の一般用語部分については教師モデルと同じ答えを出力するように学習し、隠された単語の専門用語部分については正解と同じ答えを出力するように学習させるといった一般用語と専門用語を同時に学習させる手法を取り入れることで、一般用語を忘却することなく専門用語を習得することを可能にしたという。

  • 今回開発された技術の概要

    今回開発された技術の概要。教師モデルから効率よく一般用語を学びながら、少ない専門データを用いた別カリキュラムで適用分野の専門用語も同時に学習させることで、短時間での教育を可能とした (資料提供:東芝、以下すべて)

同社が行った有効性試験では、生成する生徒モデルの計算規模を、1から学習する大規模な汎用言語モデル(従来手法)の半分、学習時に使用する文書量は、従来手法の1/100としながらも、保守点検記録の中からトラブルが発生した機器の状況を示す「現象」や機器を修理するために保守員が実施した「対策」が記載された場所を、実用水準とされる正解率90%に近い89%にて抽出できることを確認したとしているほか、1から学習する大規模汎用言語モデル(従来手法)の学習時間が1週間ほど必要であったのに対し、今回の手法では5時間ほどと、約97%の学習時間削減が可能であることも確認したとする。

  • alt属性はこちら
  • alt属性はこちら
  • 開発したAI技術の性能評価の概要と結果

なお、同社では、保守点検の現場で記録された熟練者の知識を効率よく整理し活用することで事後保全を迅速化するサービスの実現に向けて、2024年にグループ内の事業現場にて同AIの運用開始を目指すとしているほか、将来的にはグループ内外のインフラ設備における予防保全にも適用したいとしている。

  • 想定されてるサービス展開のイメージ

    今後、想定されてるサービス展開のイメージ