ASTERIA Warp 製品ブログ

複数帳票では運用できない! RPAとの連携で注意したい既存OCRの限界点とは?

複数帳票では運用できない!RPAとの連携で注意したい既存OCRの限界点とは?

 RPA(Robotic Process Automation)を活用することで、人海戦術によるデータエントリー業務の効率化につながることが期待されています。そこで、改めて紙の伝票やPDFなどの書類からデータ抽出可能なOCR技術が注目されていますが、実は非定型書類を大量に扱う業務にはあまり向かないことをご存じですか。ここでは、RPA導入を阻む、従来のデータ抽出のためのOCR技術に着目しながら、業務の効率化、自動化に向けた最適なプロセスについて考えてみたいと思います。

脚光を浴びる、RPAとOCR技術の組み合わせによる業務効率化

 働き方改革などのキーワードに後押しされる形で、業務効率化に寄与してくれるRPAソリューションが世間を賑わせています。RPAとは、人が業務端末などで行うクリックやコピー&ペーストなどの定型作業を、ソフトウェアによって代行する仕組みのことで、人が行う動作をレコーディングし、それを忠実に再現するソフトウェアがその実態です。つまり、RPAは人が行う操作を忠実に代行するソフトウェアであり、いうなれば人の手足となって活躍してくれるものです。
 それゆえ、現時点では自ら考えて動くといった頭脳の役割を果たすことも、人に代わって目の働きをするような動きも、RPAそのものの機能としては持ち合わせていません。そこで、頭脳や目に相当する外部の仕組みと柔軟に連携することで、具体的な業務にも応用していくことができるようになります。その中で「目」に相当する仕組みの1つが、紙に書かれた情報を読み取ってのデータ化してくれるOCR技術です。特に注文書や請求書などを大量の紙でやり取りしている企業には、RPAとOCR技術を組み合わせることで、人海戦術で取り組んできたデータ抽出およびデータエントリー作業の負担軽減に役立ちます。

複数帳票に対応できない…これまでの限界を突破する新たなOCR技術

 ただし、一般的なOCRを活用した仕組みの場合、読み取る書類やフォーマットごとにデータを抽出する位置をきちんと事前に定義したうえで、スキャニングして文字情報をデータ化し、後続のシステムにデータ投入する必要があります。この場合、書類のフォーマットが定型化していれば問題ありませんが、取引先が複数ありフォーマットもそれぞれ異なる非定型書類の場合は事前に定義すること自体が難しく、運用に乗せることは困難です。例えば取引先の多い商社などでは、各社から届く注文書や請求書のフォーマットが統一されていないことも少なくありません。多くの部品を扱う製造業などの場合では、取引先である部品メーカーから届く検査報告書などのフォーマットは、やはり不揃いでしょう。たとえ同じ会社から届く請求書であっても、単価や請求額合計の記載位置が部署や拠点によって全く異なるケースもあり、それらを全て読み取るための座標を正確に定義することは非常に困難です。
 非定型の書類を大量に処理する場合であれば、人の目で見て判断するような柔軟性があり、位置情報を定義せずとも目的の情報をきちんと自動認識できるような仕組みが求められてくるはずです。

 そんな複数フォーマットの書類にも適用可能なソリューションとして開発されたのが、日立ソリューションズの「活文 Intelligent Data Extractor」です。紙書類のスキャンデータから、位置を事前に定義することなく必要な情報が抽出できる技術が搭載されています。ある特定の文字列との位置関係を意識した抽出や、正規表現に一致するデータの抽出、データタイプに一致するデータの抽出といった、単なる位置情報だけにとどまらない抽出パターンが採用されています。実際には、書類全体の文字列構成を分析・判断することで、必要な情報を自動的に抽出することができるようになるのです。しかも、自己学習によって抽出精度を向上させる機能が備わっており、従来にはないフォーマットの書類についても、機械学習によって柔軟に情報抽出が可能になります。
 なお、機械学習については、もし抽出個所の訂正があれば、現場の担当者自ら指摘し、正しい位置情報に直していくだけ。ITの専任者が機械的に学習していく業務を支援する必要はありません。

文字抽出後のチェックプロセスが重要に

 目として機能するOCR技術を有効に使うことで、データエントリーの負担を軽減する仕組みを見てきましたが、これはOCRによる文字抽出が正確であることが大前提です。しかし現実には、不鮮明な文字の書類フォーマットなども存在しており、特に手書き文字などをOCRで認識するのは、とても難易度が高いのが実態です。そこで、実際の業務に活用するために、データエントリーされた情報が正しいかどうかのチェックを行う仕組みも同時に検討するべきです。具体的には、社内にあるマスターデータとの整合性チェックのためのプロセスづくりです。例えば型番などの情報は、抽出した情報と社内にあるマスターデータを突合させ、もし修正が必要であればその場で加工を施すことで、後段のシステムにデータ投入しやすくなる、といった具合です。

 

OCRの読み取り精度を上げる手法と合わせて、このようなデータ精度を担保するためのチェックプロセスに有効な方法など、従来のデータ抽出のための OCR 技術に着目しながら、業務の効率化、自動化に向けた最適なプロセスについて、こちらのホワイトペーパー で解説していきます。

 

RPA 最前線 従来 OCR の課題を解決! 「学習型データ抽出技術」が実現する さらなる自動化 ホワイトペーパー

― RPA最前線 ―
従来OCRの課題を解決!
「学習型データ抽出技術」が実現するさらなる自動化

1.業務効率化の担い手として注目される「RPA」
2.RPA との連携に有効な「OCR」の世界
3.なぜ OCR が活かしきれないのか
4.これまでのデータエントリーにおける課題
5.座標定義をしないデータ抽出技術
6.RPA 化を阻む、もう 1 つの要因「データ精度の担保」
7.マスター照合に威力を発揮する EAI
8.RPA 導入の理想的なシステム連携
ダウンロード

ASTERIA Warp関連サイトのご紹介

X

<技術情報をお探しの方>

ASTERIA Warp Developer Network
(ADN)サイト

ASTERIA Warp製品の技術情報やTips、また情報交換の場として「ADNフォーラム」をご用意しています。

X

<ASTERIA Warpユーザーの方>

ASTERIA Warpユーザーグループ
(AUG)サイト

ASTERIA Warpユーザー同士の交流の場として、各種イベント案内や開催レポートを掲載しています。

X

<ASTERIA Warpユーザーの方>

ASTERIA Warpユーザーサイト
Login

製品更新版や評価版のダウンロード、各種ドキュメントのご提供、また 技術的なお問合せもこちらで受付ています。

X

<ASTERIA Warpパートナーの方>

ASTERIA Warpパートナーサイト
Login

パートナーライセンスの発行や各種ドキュメントのご提供をしています。