RPA(Robotic Process Automation)を活用することで、人海戦術によるデータエントリー業務の効率化につながることが期待されています。そこで、改めて紙の伝票やPDFなどの書類からデータ抽出可能なOCR技術が注目されていますが、実は非定型書類を大量に扱う業務にはあまり向かないことをご存じですか。ここでは、RPA導入を阻む、従来のデータ抽出のためのOCR技術に着目しながら、業務の効率化、自動化に向けた最適なプロセスについて考えてみたいと思います。
目次
働き方改革などのキーワードに後押しされる形で、業務効率化に寄与してくれるRPAソリューションが世間を賑わせています。RPAとは、人が業務端末などで行うクリックやコピー&ペーストなどの定型作業を、ソフトウェアによって代行する仕組みのことで、人が行う動作をレコーディングし、それを忠実に再現するソフトウェアがその実態です。つまり、RPAは人が行う操作を忠実に代行するソフトウェアであり、いうなれば人の手足となって活躍してくれるものです。
それゆえ、現時点では自ら考えて動くといった頭脳の役割を果たすことも、人に代わって目の働きをするような動きも、RPAそのものの機能としては持ち合わせていません。そこで、頭脳や目に相当する外部の仕組みと柔軟に連携することで、具体的な業務にも応用していくことができるようになります。その中で「目」に相当する仕組みの1つが、紙に書かれた情報を読み取ってのデータ化してくれるOCR技術です。特に注文書や請求書などを大量の紙でやり取りしている企業には、RPAとOCR技術を組み合わせることで、人海戦術で取り組んできたデータ抽出およびデータエントリー作業の負担軽減に役立ちます。
ただし、一般的なOCRを活用した仕組みの場合、読み取る書類やフォーマットごとにデータを抽出する位置をきちんと事前に定義したうえで、スキャニングして文字情報をデータ化し、後続のシステムにデータ投入する必要があります。この場合、書類のフォーマットが定型化していれば問題ありませんが、取引先が複数ありフォーマットもそれぞれ異なる非定型書類の場合は事前に定義すること自体が難しく、運用に乗せることは困難です。例えば取引先の多い商社などでは、各社から届く注文書や請求書のフォーマットが統一されていないことも少なくありません。多くの部品を扱う製造業などの場合では、取引先である部品メーカーから届く検査報告書などのフォーマットは、やはり不揃いでしょう。たとえ同じ会社から届く請求書であっても、単価や請求額合計の記載位置が部署や拠点によって全く異なるケースもあり、それらを全て読み取るための座標を正確に定義することは非常に困難です。
非定型の書類を大量に処理する場合であれば、人の目で見て判断するような柔軟性があり、位置情報を定義せずとも目的の情報をきちんと自動認識できるような仕組みが求められてくるはずです。
そんな複数フォーマットの書類にも適用可能なソリューションとして開発されたのが、日立ソリューションズの「活文 Intelligent Data Extractor」です。紙書類のスキャンデータから、位置を事前に定義することなく必要な情報が抽出できる技術が搭載されています。ある特定の文字列との位置関係を意識した抽出や、正規表現に一致するデータの抽出、データタイプに一致するデータの抽出といった、単なる位置情報だけにとどまらない抽出パターンが採用されています。実際には、書類全体の文字列構成を分析・判断することで、必要な情報を自動的に抽出することができるようになるのです。しかも、自己学習によって抽出精度を向上させる機能が備わっており、従来にはないフォーマットの書類についても、機械学習によって柔軟に情報抽出が可能になります。
なお、機械学習については、もし抽出個所の訂正があれば、現場の担当者自ら指摘し、正しい位置情報に直していくだけ。ITの専任者が機械的に学習していく業務を支援する必要はありません。
目として機能するOCR技術を有効に使うことで、データエントリーの負担を軽減する仕組みを見てきましたが、これはOCRによる文字抽出が正確であることが大前提です。しかし現実には、不鮮明な文字の書類フォーマットなども存在しており、特に手書き文字などをOCRで認識するのは、とても難易度が高いのが実態です。そこで、実際の業務に活用するために、データエントリーされた情報が正しいかどうかのチェックを行う仕組みも同時に検討するべきです。具体的には、社内にあるマスターデータとの整合性チェックのためのプロセスづくりです。例えば型番などの情報は、抽出した情報と社内にあるマスターデータを突合させ、もし修正が必要であればその場で加工を施すことで、後段のシステムにデータ投入しやすくなる、といった具合です。
OCRの読み取り精度を上げる手法と合わせて、このようなデータ精度を担保するためのチェックプロセスに有効な方法など、従来のデータ抽出のための OCR 技術に着目しながら、業務の効率化、自動化に向けた最適なプロセスについて、こちらのホワイトペーパー で解説していきます。
Related Posts
ASTERIA Warp製品の技術情報やTips、また情報交換の場として「ADNフォーラム」をご用意しています。
アステリア製品デベロッパー同士をつなげ、技術情報の共有やちょっとしたの疑問解決の場とすることを目的としたコミュニティです。