さくら情報システムは、生成AIとAI OCRを組合せる非定型文書データ化サービス「AI TextSifta」(エー・アイ・テキストシフタ)の6月開始を発表した。
「AI TextSifta」は、生成AI(GPT)とAI OCRを組み合わせることで事前学習や設定作業を行わずとも、プロンプトを使って画像やPDFなどの非定型文書からも速やかにデータを抽出できるサービス。AI OCRが得意としてきた日本語の請求書や領収書のみならず、業務固有の特殊な帳票やPDF、写真など非定型データからのデータ抽出に加え、プロンプトでの計算や推測など生成AIを使った組み立てが可能になる。同社の公式Webサイトでは、検針票から請求年、月、対象、使用量、基本料金、従量料金、割引料金、メーター番号・・・などの項目を読み取り、しきい値を超えた場合に計算式で警告を出すといった使用例を示しているがプロントを駆使することで、組織運営から出てくる細かなデータをテキスト化し情報活用できる。
2024年後半からはAPIによる運用も予定しているが、一般的な請求書の場合日本語1ページ20円~(参考価格)。プロンプトのチューニングは有償となる。なお、サービスのお試しサイトも用意されており、実際の動作を登録後に無料で試せる。