日立製作所は6月23日、企業活動で生成・蓄積されるものの有効活用できていない「ダークデータ」から取得したいデータの抽出作業を自動化・高度化する「データ抽出ソリューション」を開発し販売を開始すると発表した。販売価格は個別見積もり。

同ソリューションは、スタンフォード大学主催の開発プログラムの研究成果である人工知能(AI)を中核としたダークデータ分析エンジンを活用。非定型ドキュメントの利活用において、取得したいデータの抽出作業を自動化・高度化する。一般的なOCRやAI-OCRでは解析が難しいさまざまなドキュメントに対応し、日々蓄積する膨大なダークデータの中から、価値あるデータを導き出し、データ利活用によるビジネスの変革につなげる。

  • 「データ抽出ソリューション」イメージ

同ソリューションでは、表やページ情報などドキュメント内のさまざまな視覚情報を特徴として捉え文書を解析する「情報表現構造解析技術」を採用。これにより、対応が難しかった非定型ドキュメントのデータ抽出を可能にしている。

例えば、日付の表記が「発行日」と「診察日」など、発行元によって異なる用語が使われている場合にも、文書の構造から同じ意味をさす単語として認識できるほか、抽出対象が複数ページにまたがるドキュメントでも、対象となる項目を抽出することが可能。また、一つの区分に対し複数の項目が紐づく「1:Nの関係」も正しく認識するため、複雑な表のデータ抽出にも活用できる。

また、少ない学習データでAIモデルを生成できる「弱教師学習技術」により、データのラベリング作業を自動化するため、モデル構築のための期間短縮やコスト削減が可能となるほか、追加学習や再学習といったモデルの継続的な改善にも対応できるとのことだ。