マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

ツール・サービス紹介

2023.02.16

【無料で使える】「 OCR 」ツールまとめ

【無料で使える】「 OCR 」ツールまとめ

【無料で使える】「 OCR 」ツールまとめとして、
以下の内容を紹介しています。

・【用語解説】「OCR」とは
・【無料オープンソース】「 OCR 」ツールまとめ8選
・【有償ツール】「 AI-OCR 」ツールまとめ3選

【用語解説】「OCR」とは

OCRの「概要」

「OCR」(Optical Character Recognition/Reader)(光学文字認識)とは、
「スキャン画像データ」から「画像内文字」を抽出し「コンピューターが読み取れる形式」に変換するテクノロジーです。

ポイント

・「ハードウェア」(スキャナー)+「ソフトウェア」(OCRツール)の組み合わせを使用
・「物理的印刷ドキュメント」を「機械可読テキスト」に変換
・主要画像形式サポート :「jpg」「jpeg」「png」「bmp」「tiff」「pdf」
・データ抽出の自動化も可能
・手作業によるデータ入力作業を削減
・ビジネスにおいて「時間」「コスト」「リソース」を節約

OCRの「ユースケース」

■紙ベース情報のテキスト化変換
・名刺
・請求書
・領収書
・契約書 など

■自動化処理
・買掛金の自動請求書処理
・ドキュメント完全性チェックの自動化
・検索エンジン用ドキュメントのインデックス作成
・ビッグデータモデリングの最適化

■監視抽出
・車両ナンバープレートの読み取り
・ソーシャルメディア投稿でブランドロゴを検出
・広告画像での自社製品パッケージを識別

■ユーザビリティ向上
・目の不自由な方へのサポートサービス

OCRの「メリット」

「紙記述情報」を「テキストナレッジアーカイブ」に変換

企業は、OCRツールを活用することで、「そのままでは活用しにくいテキスト情報が含まれた画像データ」を「各種ビジネスソフトウェアで分析できるテキストデータ」に変換できます。

「変換されたテキストデータ」を分析し「検索可能なナレッジアーカイブ」を構築することで、「ビジネスプロセス生産性向上」につながります。

運用効率性向上

OCRツールを導入することで「運用合理化」「生産性向上」「コスト削減」などにつながります。
・手書き情報のデータ入力作業を自動化 :「自動検証」「レビュー」「編集」「分析」
・データ検索対象化
・ワークフロー推進
・「ドキュメントワークフロー」と「ビジネスワークフロー」の統合
・紙ベース記載情報のデジタル化保護 :「紛失」「盗難」「火災」などから
・データの逐次アップデートにより、常に最新情報を閲覧可能

AIテクノロジー統合

多くの主要OCRソリューションでは、「データ抽出精度向上」「プロセス自動化」などのAIテクノロジーが統合されています。

このようなAIテクノロジーは、「カスタマーエクスペリエンス向上」「マーケティング精度向上」「経営上の意思決定サポート」などに役立ちます。

「OCR」の動作プロセス

一般的に、OCRの動作プロセスとして、次の3つの段階があります。

①画像前処理

画像前処理として、入力の品質を向上させるために、
「ノイズ除去処理」「スキュー補正(傾き補正)処理」などを実施します。

②文字認識

文字認識プロセスでは、AIを使用して画像内文字について分析(識別)します。

※文字認識アプローチ①「パターン認識」

パターン認識は、ピクセル単位で「さまざまなテキスト例」と「画像内文字」を比較することで認識するアプローチです。

※文字認識アプローチ②「特徴検出」

特徴検出は、「特定の文字の特徴に関するルール」を適用して、「画像内文字」を認識します。

画像内文字の「斜めの線の数」「交差した線の数」「曲線の数」などを計測して、該当する可能性が最も高い文字に割り当てます。

※ドキュメントイメージ構造分析

OCRツールは、ドキュメントイメージの構造も分析します。

ページを「テキストブロック」「表ブロック」「画像ブロック」などの要素に分割します。

テキストブロックについては「行単位で分割」→「単語単位で分割」→「文字単位で分割」の後、文字認識を実施します。

③後処理

後処理は、認識精度を向上させるためのプロセスです。
・標準語彙および言語データ内にあるかどうかを比較検証
・文法チェック
・文脈チェック
・エラーを修正してデータ精度を向上

旧来と比較して、AI技術の高度化により、文字認識精度は格段に向上しています。

【無料オープンソース】「 OCR 」ツールまとめ8選

①PDF用OCRツール「OCRmyPDF」

概要

「OCRmyPDF」は、「スキャンされたPDFファイル」に「OCRテキストレイヤー」を追加して、それらを検索できるようにするためのツールです。

特徴

・「通常のPDFファイル」から「検索可能なPDF/Aファイル」を生成
・OCRテキストを画像の下に正確に配置
・オリジナル埋め込み画像の正確な解像度を維持
・ロスレス操作としてOCR情報を挿入
・PDF画像を最適化(ファイルサイズ縮小化)
・OCR実行前に画像傾き補正
・入力ファイルと出力ファイルを検証
・利用可能なすべてのCPUコアにタスク分散
・100を超える言語を認識 :TesseractOCRエンジン
・スケール機能 :数千ページのファイル処理をサポート
・数百万のPDFでバトルテスト済み

オフィシャルサイト

→github.com →ocrmypdf/OCRmyPDF

→ocrmypdf.readthedocs.io

②オープンソースOCRエンジン「Tesseract」

概要

「Tesseract」は、オープンソースのOCR(テキスト認識)エンジンです。

「コマンドラインから使用」もしくは「API経由での使用」により、画像からテキストを抽出します。

GUIアプリケーションは含まれていませんが、サードパーティツールを利用できます。

特徴

・LSTMニューラルネットワークに基づくOCRエンジン
・Unicode(UTF-8)をサポート
・100を超える言語を認識可能
・さまざまな画像形式をサポート :「PNG」「JPEG」「TIFF」など
・さまざまな出力形式をサポート :「プレーンテキスト」「hOCR(HTML)」「PDF」「TSV」「ALTO」

オフィシャルサイト

→github.com →tesseract-ocr/tesseract

→tesseract-ocr.github.io

③テキスト抽出Pythonモジュール「EasyOCR」

概要

「EasyOCR」は、画像からテキストを抽出するためのPythonモジュールです。

特徴

・ドキュメント内の「自然なテキスト」と「高密度のテキスト」の両方を読み取る
・80以上の言語をサポート
・学術およびその他のオープンソースプロジェクトでの成果を活用
・目標=最先端のパフォーマンスを備えたすぐに使用できるプロダクト
・1000を超えるパブリックコードベースを持つ10000を超える開発者によって使用されている

オフィシャルサイト

→github.com →JaidedAI/EasyOCR

→jaided.ai →easyocr

④GNOME OCRツール「OCRFeeder」

概要

「OCRFeeder」は、ドキュメントレイアウト分析および光学式文字認識システムです。

「GUIツール」+「コマンドラインインターフェース」が付属しています。

画像を指定すると、コンテンツの輪郭が自動的に表示され、グラフィックとテキストを区別して、OCRを実行します。

主な機能

・認識されない文字の修正
・境界ボックスの定義(修正)
・段落スタイル設定
・入力画像クリーンアップ
・PDFインポート
・プロジェクトの保存と読み込み
・複数形式へのエクスポート

オフィシャルサイト

→gitlab.gnome.org →GNOME/ocrfeeder

→wiki.gnome.org →action →show →Apps →OCRFeeder

⑤2つのOCRエンジン「Lios」

概要

「Lios」(Linux Intelligent Ocr Solution)は、画像情報をテキストに変換するためのオープンソースソフトウェアです。

「PDF」「画像」「画像を含むフォルダ」「スクリーンショット」などから、テキストを生成できます。

特徴

・2つのOCRエンジン「Cuneiform」「Tesseract」をサポート
・選択した領域を認識
・テキストクリーナー機能
・画像とテキストを並べて表示
・画像の回転(ズーム)機能
・スキャナー輝度オプティマイザー
・低視力用テキストリーダー機能
・スペルチェッカー
・エクスポート機能 :PDF(テキスト/画像)

オフィシャルサイト

→github.com →Nalin-x-Linux/lios-3

⑥Linux向けOCRシステム「kraken」

概要

「kraken」は、非ラテンスクリプトマテリアル用に最適化されたOCRシステムです。

動作環境

・「Linux」および「Mac OS X(x64とARMの両方)」で動作
・pipユーティリティのサポート
・Anacondaによるインストールのサポート

実行プロセス

「kraken」は、複数のステップのシリアル実行で文字認識を実施します。

①「レイアウト分析」+「ページ セグメンテーション」
・画像からトポロジーテキスト行を抽出

②認識
・テキスト行画像を分類器に供給

③出力
・最終的に結果をシリアル化

特徴

・完全にトレーニング可能な「レイアウト分析」+「文字認識」
・スクリプトタイプサポート :「Right-to-Left」「BiDi」「Top-to-Bottom」
・出力 :「ALTO」「PageXML」「abbyyXML」「hOCR」
・単語境界ボックス+文字カット
・マルチスクリプト認識のサポート
・モデルファイルのパブリックリポジトリ
・軽量モデルファイル
・変数認識ネットワークアーキテクチャ

オフィシャルサイト

→github.com →mittagessen/kraken

→kraken.re

⑦ドキュメント自動タグ付け「Paperless-ng」

【ツール紹介】無料オープンソース「 OCR 」ツールまとめ3選(Vol.2)

概要

「Paperless-ng」は、スキャンしたドキュメントにメタデータを付加することで、ドキュメントを簡単に検索できるようにするツールです。

特徴

■OCRによるタグ追加
・ドキュメントに対するOCRを実行
・ドキュメントに「タグ」「ドキュメントタイプ」追加
・テキストを画像のみドキュメントに追加

■サポートドキュメント
・PDF
・画像
・プレーンテキストファイル
・Officeドキュメント :「MicrosoftOfficeファイル」「LibreOfficeファイル」

■フロントエンドアプリケーション
・基本的な統計を表示
・ドキュメントをアップロードできるダッシュボード
・フィルタリング表示機能
・カスタマイズビュー作成

■全文検索機能
・検索単語オートコンプリート :ドキュメントから関連する単語を提案
・検索クエリ関連性による並べ替え表示
・該当箇所強調表示 :ドキュメントのどの部分がクエリに一致したかを把握
・類似ドキュメント検索

■機械学習による自動タグ付け
・ドキュメントから学習
・ドキュメントに「タグ」「タイプ」を自動的に割り当て

オフィシャルサイト

→github.com →jonaswinkler/paperless-ng

→paperless-ng.readthedocs.io

⑧ドキュメントを構造化データに変換「Parsr」

概要

「Parsr」は、ドキュメントを構造化データに変換するツールです。

各種ドキュメントに対して「クリーニング」「解析」「抽出」するためのツールチェーンとして利用できます。

ドキュメントを読み込んで「クリーンな構造化およびラベル強化された情報セット」を出力します。

出力構造化データ形式

・JSON
・Markdown
・CSV
・Pandas DF
・TXT

ユースケース

※「データサイエンティスト」および「開発者」向け
・データ入力自動化
・ドキュメント分析自動化
・ドキュメントアーカイブ

主な機能

・ドキュメントクリーニング
・階層再生成 :「段落」「行」「単語」
・検出:「見出し」「表」「リスト」「目次」「ページ番号」「ヘッダー/フッター」「リンク」

オフィシャルサイト

→github.com →axa-group/Parsr

【有償ツール】「 AI-OCR 」ツールまとめ3選

①市場シェアNo.1「DX Suite」

概要

「DX Suite」は、市場シェアNo.1のAI-OCRツールです。
・帳票などの紙ベースドキュメントを効率的にデジタル化
・「クラウド版」および「オンプレミス版」での利用が可能
・2300社を超えるユーザーが活用

特徴

■業界最高水準の文字認識精度
・自社開発の文字認識AI
・「手書き」「活字」「傾いた画像」などを高い精度で読み取り
・継続した「精度向上」「モデル向上」「機能追加」

■簡単操作
・わかりやすく使いやすいユーザーインターフェース
・読み取り箇所もマウスクリックで簡単設定

■さまざまな非定型帳票サポート
・フォーマットが異なる帳票を読み取り :「請求書」「図面」「契約書」など

■帳票自動仕分け機能「Elastic Sorter」
・まとめてアップロードしたドキュメントを種類ごとに自動仕分け
・「注文書セット」や「申込書セット」などの複数種類セットもサポート

■プライバシーコントロール
・アップロード画像データについて、AI学習データ提供の「許可or不許可」の選択が可能
・個人情報の取り扱いに厳しい用途への適用も可能

■高いセキュリティレベル
・通信経路暗号化 :「TSL1.2」
・金融系企業での導入実績も豊富

■各種システム連携
・RPAツールなどとAPI連携
・業務自動化を推進

オフィシャルサイト

→dx-suite.com

②2つのOCRエンジンによる高精度「AnyForm OCR」

概要

「AnyForm OCR」は、データ入力業務生産性向上OCRツールです。

特徴

■高い認識精度
・OCRエンジン選択:「読み取る項目」に応じてOCRエンジン選択が可能
・文字認識精度向上機能 :「項目演算設定」「項目検証設定」
・認識精度が高いため修正時間を削減可能

■ノンプログラミング読み取りエリア設定
・座標指定方式 :OCR処理座標を指定
・定型帳票の必要項目を選択
・自社内運用が可能

■豊富な機能 :データ入力業務の現場意見を多数採用
・マスタ参照
・明細自動演算機能
・辞書マスタ機能 :「商品名」「商品型番」など
・エクスポート機能 :「CSV」「TSV」「XML」
・マスター参照 :必要な情報の画面表示やデータ出力
・オリジナルイメージ表示 :OCR結果確認時に元画像を拡大表示
・分割表示 :特定部分で表示させたまま、他の部分をスクロール表示

■他システム連携
・充実した他製品との連携機能
・RPAツール連携により、データ入力業務を効率化

オフィシャルサイト

→hammock.jp →anyform

③オートセグメンテーション機能「AIスキャンロボ」

概要

「AIスキャンロボ」は、AIによるOCRデジタルスキャナーです。
・専門的知識+高度プログラミング能力を持つエンジニアによるAI開発
・高い文字認識精度
・簡単なテンプレート設定
・大幅なコストダウンおよび業務効率化を実現

特徴

■高い認識率
・独自開発 :特許出願済「文字種推定システム」「文字種推定方法」「文字種推定プログラム」
・ディープラーニング技術 :「CNN」「DNN」「LSTM」など

■オートセグメンテーション機能
・AIが自動的に判別し読み取りを開始
・文字認識範囲を座標固定する必要がない
・座標の変化を即座にキャッチ
・座標ズレのストレスを削減

■複雑帳票の読み取りに強み
・「1行の中に複数情報が混在している複雑構造」もサポート

■複数ページファイルの読み取り
・2ページ以上の連続帳票をAIが追随し読み取り
・ページ番号が記載された1シートのCSVに出力

■テンプレート自動判別
・読み取り時のテンプレートをAIが自動識別
・最適なテンプレートを自動的に選択
・多品種小ロットの帳票読み取りに最適

■パターン学習読取り機能
・項目選択の「記号」「マーク」などをパターン学習
・出力したいテキストデータに変換

■データベースマッチング機能
・予め登録したデータベース情報から一番近いものを選択
・軽微な誤認識を解消
・メンテナンスの必要なし :新しいアイテムを自動登録

■多言語対応
・日本語
・英語
・中国語(繁体字・簡体字)
・韓国語
・タイ語

オフィシャルサイト

→aiocr.ai

【お知らせ】ITセミナー「マジセミ」のご紹介

「 マジセミ 」では、日々、多くのIT関連セミナーを開催しています。

参加者のみなさまのために「本当に役立つ情報の提供」を目標としています。

また、「 マジセミ 」を通じて、デジタル関連プロダクト(サービス)との「新たな出会いの場」「新たな体験の場」を創造することで、「IT業界の発展」「製造業の発展」「エンジニアの活躍促進」の実現を目指しています。

多くのセミナーの中から「ご自身のスキルやビジネスを強化できるセミナー」を見つけて、ぜひ一度、ご参加ください。

【無料で使える】「 MSP 」管理ツールまとめ


参考サイト
→linuxlinks.com →「12 Best Free and Open Source OCR Tools」
→medium.com →「Review of Best Open-Source OCR Tools」
→towardsdatascience.com →「5 Open Source Tools You Can Use to Train and Deploy an OCR Project」
→ibm.com →「What Is Optical Character Recognition (OCR)?」
→parseur.com →「What is OCR? A full guide in 2022」
→klippa.com →「What is OCR? The Ultimate Guide to OCR 2022」
→aws.amazon.com →「OCR (光学文字認識) とは」
→medium.com →「Top Open-source OCR programs」
→github.com →search(OCR)
→qeee.jp →「【比較13選】AI-OCRとは?特徴や比較のポイントを徹底解説」
→boxil.jp →「【2022年】AI-OCR比較14選!OCRとの違いやメリット、選び方」
→aspicjapan.org →「AI OCR比較14選!仕組み・メリットから選び方までわかりやすく」

おすすめの記事

【デジタル寺田の3分用語解説】「 2029年問題 」とは?📅

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 2029年問題 」とは?📅

「 2029年問題 」とは、高校でのデジタル教育改革により、新入社員と既存社員間でデジタルスキル格差が拡大する懸念を指します。企業は早急に対応が求められています。この格差は、企業競争力や業務効率にも、影響を及ぼす可能性があります。

【デジタル寺田の3分用語解説】「 経済産業省:コンテンツ制作のための 生成AI 利活用ガイドブック 」とは?📘

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 経済産業省:コンテンツ制作のための 生成AI 利活用ガイドブック 」とは?📘

経済産業省による「 生成AI 利活用ガイドブック 」は、企業やクリエイター向けに、安心して「生成AI」を利用するための、「指針」「実例」「注意点」を明示しています。「業務効率化」や「新しいアイデア創出」の支援を目的としています。

【デジタル寺田の3分用語解説】「 VMWare 問題 」とは?🖥️

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 VMWare 問題 」とは?🖥️

「 VMWare 」の仮想化技術は、「ITインフラの効率化」に大きく貢献する技術ですが、Broadcomによる買収後のライセンス変更が大きな問題として注目されています。柔軟で慎重な契約見直しが今後の鍵となります。