はじめに
「OCR」という言葉をご存じでしょうか? 手書きや印刷された画像としての文字を読み取り、テキストデータに変換する技術のことで、一昔前は、郵便番号の読取りや試験の選択式問題の採点などに使われていましたね。
今やこの技術は大幅に発展し、オフィスにおけるペーパレス化をはじめとする業務の効率化になくてはならない技術になっています。
以下ではOCRとは何かを説明し、OCR処理のできるツールも紹介します。
目次:
OCRとは?
OCRとは印刷された文字や手書きの文字などを、カメラやスキャナなどで画像データとして取り込み、それを文字として認識することによって、パソコンなどで利用できる文字(テキスト)データに変換する技術のことです。以下のメリット、デメリットがあります。
①メリット
・データ手入力の作業時間を削減できる
・入力ミスが軽減でき品質向上につながる
・データ管理や検索が容易になる
・ペーパーレス化につながる
②デメリット
・英語圏で主に使用される数字とアルファベットだけであれば文字の種類は少なく、処理は比較的簡単だが、漢字は文字の種類も画数も多いため、日本語のOCR処理の難易度は格段に高い
・文字認識率は100%ではないので、目視確認が必要
・読み込む書式が全て定型フォーマットであれば問題は少ないが、フリーフォーマットの文書への対応は注意が必要
また、OCRの導入により、効率向上が見込める業務としては、特に経理・会計業務のような大量の細かな数字を取り扱う業務、注文書や納品書など日々膨大な「紙」のやり取りが発生する業務、過去資料など紙や手書き資料のデータ化を求められる業務があげられます。
画像データをテキストにするOCR手法
無料オンラインツール
まず、無料で使えるオンラインツールをいくつか紹介します。
(1)Convertio
・https://convertio.co/ja/ocr/ にアクセス
・変換元ファイルを指定/D&D
・しばらくすると「準備完了」と表示されるので、言語、出力ファイル形式、ページを選択して「を認識」ボタンをクリック
・変換が終了すると「ダウンロード」ボタンが表示されるのでクリック
(2)soda PDF ONLINE
・https://www.sodapdf.com/ja/ocr-pdf/ にアクセス
・変換元ファイルを指定/D&D
・編集可能なPDFに変換され、ブラウザ上で表示される
・ファイル保存(有料)、編集、コピー、貼り付け、削除等が可能
オンラインストレージ
オンラインツールとは異なりますが、オンラインストレージGoogleドライブにはOCR機能があり、以下の手順でOCR結果を取得できます。
・ブラウザ(Chromeでなくても可)からGoogleドライブにアクセス
・Googleドライブに変換元の画像ファイルをアップロード
・画像ファイルを右クリックするとコンテキストメニューが表示される
・「アプリで開く」→「Googleドキュメント」を選択
・結果が表示されるので、必要に応じて「ファイル」→「ダウンロード」→「.docx/.txt」等の形式で保存
PDFelement
オールインワンPDF編集ソフトPDFelementを使うと、簡単にスキャンしたPDFをOCR処理することができます。二通りの方法がありますが、機能は同じです。
(1)ワンクリックでスキャンしたPDF書類を文字にする
・PDFelementを起動
・ホーム画面で「OCR PDF」をクリック
・「開く」ダイアログが表示されるので、OCR処理するPDFを選択して「開く」をクリック
・「OCR PDF」ダイアログが表示されるので、「ページ範囲」「言語認識」等を選択して「適用」をクリック
・文字画像が全てテキスト化され、検索やコピー&ペーストが可能な状態になっている
(2)開いているPDFファイルをOCR処理する
・PDFelementを起動してOCR処理するPDFを読み込む
・ツールバーの「ツール」→「OCR処理」/「OCRエリア」をクリック
・(1)と同様の「OCR PDF」ダイアログが表示されるので、必要項目を選択して「適用」をクリック
OCRツールの比較と注意点
二、で紹介した三種類のOCRツールの比較と注意点について説明します。
①利便性
オンラインツールは専用ソフトをインストールする必要がなく、ネットワークにつながる環境とブラウザさえあれば、いつでもどこでも処理できるので、非常に便利です。オンラインストレージに関してもそれは同じですが、オンラインストレージの使い方をあらかじめ知っておく必要があります。
②安全性
オンラインツールはファイルをサーバーにアップロードする必要があります。処理後は自分で削除するか、一定時間後に削除されるものもありますが、情報漏洩のリスクはあります。個人情報や機密情報を含む文書をアップロードするのは控えるべきでしょう。オンラインストレージは利用者が特定されているとはいえ、やはり情報漏洩のリスクは考慮すべきです。
③識別の正確性
識別の正確性はツールよりも、むしろ元となる読込ファイルに依存します。正確に読み取るには、文字が傾いていない、文字が黒色でかすれていない、背景は白に近い、レイアウトが複雑でないものが向いています。
オンラインツールは「無料」で使えますが、ページ数や言語、出力形式に制限がある場合が多いです。オールインワンPDF編集ソフトPDFelementは無料でその機能を確認できますので、無料体験版を試用して、気に入れば購入されることをお勧めします。
まとめ
OCRとは何か、そのメリットとデメリット、さらには各種OCRツールの使い方を説明しました。OCR機能はオフィスのペーパレス化に伴い、以前よりも必要性が増しています。適切なツールを選択して、事務処理をより一層効率化させましょう。