このウェブサイトのレイアウトやリンクの一部は、Javascriptを無効にすると正常に機能しない場合があります。正しくこのウェブサイトを表示するにはJavaScriptを有効にしてください。

日本 - ソリューション・商品サイト

ホーム
トレード帳票DXシリーズ
コラム一覧
AIでOCRを超える　「文字認識からデータ認識へ」：リコーのAI×OCR技術

AIでOCRを超える　「文字認識からデータ認識へ」：リコーのAI×OCR技術

様々な分野でAI（人工知能）が活用されていますが、OCR（光学的文字認識技術）もAIを活用することで大きく進化しています。リコーのOCR技術はAIを活用することで単なる「文字認識」から意味を持った「データの認識」ができるようになり、OCR技術を簡単に効果的に業務改善に利用することができます。
今回はそうしたリコーのAI×OCR技術の特長をご紹介します。

「文字認識」を超え、業務に役立つ「データ」の認識へ

「OCR」とは、Optical Character Recognitionの略語で、日本語では「光学的文字認識」といいます。スキャナやカメラなどの光学的な装置を使って画像を撮影し、その画像から「文字」を認識しデータ化する技術のことです。文字を認識する処理は以下の3つになります。

１）画像から文字列が書かれている部分の画像領域を抽出する
２）この部分画像には複数の文字が含まれているので、1文字単位に分割する
３）1文字1文字がどの文字であるかを特定する

１）２）３）はどれも技術的には難しく、これまでも様々な技術的工夫を凝らしてOCR技術は進化してきました。近年はAI技術を活用することでOCRも大きく進化しています。リコーも独自のAIを活用した１）２）３）の技術の研究開発を積み重ねていて、「RICOH 受領請求書サービス/RICOH 受領納品書サービス」として製品化しています。「AI×OCR」技術は、文字の認識精度を高めるだけでなく、「意味のあるデータ」として認識することができるので、OCRで認識したデータをそのまま業務システムなどと連携することもできるようになっています。

業務で必要な「データ」が書かれている場所をAIで特定する

請求書や納品書などの帳票は、決まったフォーマットというものがありません。取引先によってそれぞれ帳票がデザインされているため、多種多様なフォーマットの帳票を処理する必要があります。例えば、抽出したい「データ」が請求合計金額である場合、それが書かれている場所は取引先毎に異なっています。そのため、どこに請求金額合計が書いてあるかを画像の中から自動的に見つけ出さなくてはなりません。

>業務で必要な「データ」が書かれている場所をAIで特定する

従来では、様々なフォーマットの1つ1つについてどこに請求合計金額が書いてあるかを人間が設定することで場所の特定をしていました。この設定は導入前に必要になる作業なので、一般的に導入の際に時間や費用がかかります。また、取引先が追加されるたびにフォーマットが違うので、そこでも人間の設定が必要となってしまいます。これでは誰もが手軽にOCRの技術を使うことができません。リコーはこれを解決して「誰もがすぐにAI-OCRが使える」ようにするためにAI技術を活用しています。
リコーは独自に膨大な量の請求書や納品書を事前にAIに学習させ、画像や周辺の文字パターンから「請求合計金額」が書かれている場所をAIが判断して自動的にデータを抽出する技術を開発しました。これにより、RICOH 受領請求書サービス/RICOH 受領納品書サービスは、導入時の設定作業不要で、請求書や納品書を読み込ませればすぐに仕事に必要な「データ」を自動的に抽出して画面に映しだすことができます。

賢いAI：教えれば一度で学習する

AIはデータに基づく「学習」技術によって支えられています。学習にはその分野の正解をあらかじめ教え込む「事前」学習と、ユーザが正解を指示することで事前学習の結果を修正する「事後」学習とがあります。リコーは事前学習として既に膨大な数の帳票を収集し学習をさせていますが、現在でも収集と再学習を継続的に実施して、定期的なOCRエンジンのバージョンアップにより精度を向上させ続けています。

一方、OCRは精度が100%とはならないので、どうしても間違った場合にユーザが正解をAIにフィードバックすることで事後学習をさせる必要があります。「AI OCR」の製品の中にはこの事後学習がないものや、事後学習の結果の安定に数回のフィードバックを必要するシステムもあります。請求書や納品書などのように取引先によってフォーマットが変わる帳票では、事後学習がない場合は、取引先に変化があった場合、AI OCR製品を開発している企業に再度、事前学習をしてもらう必要が出てきます。また事後学習に数回のフィードバックが必要な場合、請求書は月に１度だけであるため、学習結果の安定までに数か月かかる可能性があり、業務に適した事後学習方法とは言えません。リコーはこの点について独自技術を開発し、一つのフォーマットに対して、ほぼ1度のフィードバックにより学習を成立させることを実現しています。これにより、誤ったOCR処理結果の請求書は、ワンクリックのフィードバックで学習ができ、次の請求書から学習後のOCR処理結果が反映されるようになります（図は、RICOH 受領請求書サービス/RICOH 受領納品書サービスでワンクリックで正しい請求日の場所をシステムにフィードバックしているところ）。

教えれば一度で学習する

画像を拡大

「文字」単位ではなく「データ」単位で精度を評価

リコーのAI×OCRの技術では、「文字」単位の認識ではなく、業務で使う意味のある「データ」を画像から抽出することに注力しています。業務で使う意味のあるデータとは、例えば、請求合計金額のような一塊の文字列でないと意味をなさないデータのことです。「16,500円」という金額の場合、「1」「6」「5」「0」「0」という文字が一つでも間違って認識されると会計業務では役に立ちません。「文字」単位での精度では、5文字のうち1文字間違えると80%となりますが、「データ」単位では精度は0%となります。リコーはお客様の業務の改善を目的としているので、文字単位ではなく、「データ」単位での精度を技術の目標として独自技術の研究開発を行っています。

「文字」単位ではなく「データ」単位で精度を評価

特定業務に特化したOCRなので仕訳も学習

RICOH 受領請求書サービスやRICOH 受領納品書サービスは、多くの他社製品とは異なり、汎用OCRではなく対象帳票を請求書と納品書に限定したOCRで、その結果を買掛・未払処理業務や仕入管理業務に特化して使えるよう設計されています。OCRは単にドキュメントに書かれている情報をデジタル化するだけの機能にすぎず、業務で使えるようにするためには、そのデータを会計システムや支払システム、仕入管理システムへ伝票として取り込める形式にする必要があります。そのため、リコーはRICOH 受領請求書サービス/RICOH 受領納品書サービスの機能として、仕訳など会計・仕入の伝票を作成する機能を開発しています。

会計・支払伝票や仕入伝票を作る際には、請求書や納品書に書かれている金額や商品名に対して管理項目を表すマスター情報（科目マスター、部門マスター、取引先マスターなど）を紐づけます。RICOH 受領請求書サービス/RICOH 受領納品書サービスは、この紐づけパターンについても学習する仕組みがあります。たとえば、取引先が同じなら、前月と類似する科目コードとなるよう学習したり、スキャンする人の所属や請求書などの宛先で部門コードを学習したり、商品名の記載内容により商品コードを学習したりします。
これにより、操作する人によってマスター情報との紐づけパターンが異なるという点が改善され、利用する部署の知識やノウハウが全員に共有・活用できる環境をAIで実現しています。つまりRICOH 受領請求書サービス/RICOH 受領納品書サービスを使うと、帳票に書かれている情報の手入力の時間が削減できるだけなく、その情報の処理（伝票作成など）についても省力化・品質の共通化が実現できるようになります。

リコーの画像技術による支え

リコーは長年、複写機の開発をしてきました。複写機ではスキャンした紙文書を美しく綺麗に複製するために膨大な画像処理技術を開発し、蓄積してきました。RICOH 受領請求書サービス/RICOH 受領納品書サービスでもこの膨大な蓄積技術を活用しています。これらの処理はOCR技術を適用する前処理に利用したり、OCR技術を適用する時にも利用されたりしています。例えば、下の図にあるように、1) 請求書や納品書に押してある社印を除去し、社印の下に隠れている会社名を抽出する技術、2) 桁線を除去して金額を抽出する技術、3) 請求金額を読み取るために周辺にある文字も読み取る技術などです。今後も、複写機メーカーとしてリコーが蓄積してきた高度な画像処理技術を順次活用してさらに精度を向上させていく予定です。

印影除去