マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

ツール・サービス紹介

2023.02.16

【無料で使える】「 OCR 」ツールまとめ

【無料で使える】「 OCR 」ツールまとめ

【無料で使える】「 OCR 」ツールまとめとして、
以下の内容を紹介しています。

・【用語解説】「OCR」とは
・【無料オープンソース】「 OCR 」ツールまとめ8選
・【有償ツール】「 AI-OCR 」ツールまとめ3選

【用語解説】「OCR」とは

OCRの「概要」

「OCR」(Optical Character Recognition/Reader)(光学文字認識)とは、
「スキャン画像データ」から「画像内文字」を抽出し「コンピューターが読み取れる形式」に変換するテクノロジーです。

ポイント

・「ハードウェア」(スキャナー)+「ソフトウェア」(OCRツール)の組み合わせを使用
・「物理的印刷ドキュメント」を「機械可読テキスト」に変換
・主要画像形式サポート :「jpg」「jpeg」「png」「bmp」「tiff」「pdf」
・データ抽出の自動化も可能
・手作業によるデータ入力作業を削減
・ビジネスにおいて「時間」「コスト」「リソース」を節約

OCRの「ユースケース」

■紙ベース情報のテキスト化変換
・名刺
・請求書
・領収書
・契約書 など

■自動化処理
・買掛金の自動請求書処理
・ドキュメント完全性チェックの自動化
・検索エンジン用ドキュメントのインデックス作成
・ビッグデータモデリングの最適化

■監視抽出
・車両ナンバープレートの読み取り
・ソーシャルメディア投稿でブランドロゴを検出
・広告画像での自社製品パッケージを識別

■ユーザビリティ向上
・目の不自由な方へのサポートサービス

OCRの「メリット」

「紙記述情報」を「テキストナレッジアーカイブ」に変換

企業は、OCRツールを活用することで、「そのままでは活用しにくいテキスト情報が含まれた画像データ」を「各種ビジネスソフトウェアで分析できるテキストデータ」に変換できます。

「変換されたテキストデータ」を分析し「検索可能なナレッジアーカイブ」を構築することで、「ビジネスプロセス生産性向上」につながります。

運用効率性向上

OCRツールを導入することで「運用合理化」「生産性向上」「コスト削減」などにつながります。
・手書き情報のデータ入力作業を自動化 :「自動検証」「レビュー」「編集」「分析」
・データ検索対象化
・ワークフロー推進
・「ドキュメントワークフロー」と「ビジネスワークフロー」の統合
・紙ベース記載情報のデジタル化保護 :「紛失」「盗難」「火災」などから
・データの逐次アップデートにより、常に最新情報を閲覧可能

AIテクノロジー統合

多くの主要OCRソリューションでは、「データ抽出精度向上」「プロセス自動化」などのAIテクノロジーが統合されています。

このようなAIテクノロジーは、「カスタマーエクスペリエンス向上」「マーケティング精度向上」「経営上の意思決定サポート」などに役立ちます。

「OCR」の動作プロセス

一般的に、OCRの動作プロセスとして、次の3つの段階があります。

①画像前処理

画像前処理として、入力の品質を向上させるために、
「ノイズ除去処理」「スキュー補正(傾き補正)処理」などを実施します。

②文字認識

文字認識プロセスでは、AIを使用して画像内文字について分析(識別)します。

※文字認識アプローチ①「パターン認識」

パターン認識は、ピクセル単位で「さまざまなテキスト例」と「画像内文字」を比較することで認識するアプローチです。

※文字認識アプローチ②「特徴検出」

特徴検出は、「特定の文字の特徴に関するルール」を適用して、「画像内文字」を認識します。

画像内文字の「斜めの線の数」「交差した線の数」「曲線の数」などを計測して、該当する可能性が最も高い文字に割り当てます。

※ドキュメントイメージ構造分析

OCRツールは、ドキュメントイメージの構造も分析します。

ページを「テキストブロック」「表ブロック」「画像ブロック」などの要素に分割します。

テキストブロックについては「行単位で分割」→「単語単位で分割」→「文字単位で分割」の後、文字認識を実施します。

③後処理

後処理は、認識精度を向上させるためのプロセスです。
・標準語彙および言語データ内にあるかどうかを比較検証
・文法チェック
・文脈チェック
・エラーを修正してデータ精度を向上

旧来と比較して、AI技術の高度化により、文字認識精度は格段に向上しています。

【無料オープンソース】「 OCR 」ツールまとめ8選

①PDF用OCRツール「OCRmyPDF」

概要

「OCRmyPDF」は、「スキャンされたPDFファイル」に「OCRテキストレイヤー」を追加して、それらを検索できるようにするためのツールです。

特徴

・「通常のPDFファイル」から「検索可能なPDF/Aファイル」を生成
・OCRテキストを画像の下に正確に配置
・オリジナル埋め込み画像の正確な解像度を維持
・ロスレス操作としてOCR情報を挿入
・PDF画像を最適化(ファイルサイズ縮小化)
・OCR実行前に画像傾き補正
・入力ファイルと出力ファイルを検証
・利用可能なすべてのCPUコアにタスク分散
・100を超える言語を認識 :TesseractOCRエンジン
・スケール機能 :数千ページのファイル処理をサポート
・数百万のPDFでバトルテスト済み

オフィシャルサイト

→github.com →ocrmypdf/OCRmyPDF

→ocrmypdf.readthedocs.io

②オープンソースOCRエンジン「Tesseract」

概要

「Tesseract」は、オープンソースのOCR(テキスト認識)エンジンです。

「コマンドラインから使用」もしくは「API経由での使用」により、画像からテキストを抽出します。

GUIアプリケーションは含まれていませんが、サードパーティツールを利用できます。

特徴

・LSTMニューラルネットワークに基づくOCRエンジン
・Unicode(UTF-8)をサポート
・100を超える言語を認識可能
・さまざまな画像形式をサポート :「PNG」「JPEG」「TIFF」など
・さまざまな出力形式をサポート :「プレーンテキスト」「hOCR(HTML)」「PDF」「TSV」「ALTO」

オフィシャルサイト

→github.com →tesseract-ocr/tesseract

→tesseract-ocr.github.io

③テキスト抽出Pythonモジュール「EasyOCR」

概要

「EasyOCR」は、画像からテキストを抽出するためのPythonモジュールです。

特徴

・ドキュメント内の「自然なテキスト」と「高密度のテキスト」の両方を読み取る
・80以上の言語をサポート
・学術およびその他のオープンソースプロジェクトでの成果を活用
・目標=最先端のパフォーマンスを備えたすぐに使用できるプロダクト
・1000を超えるパブリックコードベースを持つ10000を超える開発者によって使用されている

オフィシャルサイト

→github.com →JaidedAI/EasyOCR

→jaided.ai →easyocr

④GNOME OCRツール「OCRFeeder」

概要

「OCRFeeder」は、ドキュメントレイアウト分析および光学式文字認識システムです。

「GUIツール」+「コマンドラインインターフェース」が付属しています。

画像を指定すると、コンテンツの輪郭が自動的に表示され、グラフィックとテキストを区別して、OCRを実行します。

主な機能

・認識されない文字の修正
・境界ボックスの定義(修正)
・段落スタイル設定
・入力画像クリーンアップ
・PDFインポート
・プロジェクトの保存と読み込み
・複数形式へのエクスポート

オフィシャルサイト

→gitlab.gnome.org →GNOME/ocrfeeder

→wiki.gnome.org →action →show →Apps →OCRFeeder

⑤2つのOCRエンジン「Lios」

概要

「Lios」(Linux Intelligent Ocr Solution)は、画像情報をテキストに変換するためのオープンソースソフトウェアです。

「PDF」「画像」「画像を含むフォルダ」「スクリーンショット」などから、テキストを生成できます。

特徴

・2つのOCRエンジン「Cuneiform」「Tesseract」をサポート
・選択した領域を認識
・テキストクリーナー機能
・画像とテキストを並べて表示
・画像の回転(ズーム)機能
・スキャナー輝度オプティマイザー
・低視力用テキストリーダー機能
・スペルチェッカー
・エクスポート機能 :PDF(テキスト/画像)

オフィシャルサイト

→github.com →Nalin-x-Linux/lios-3

⑥Linux向けOCRシステム「kraken」

概要

「kraken」は、非ラテンスクリプトマテリアル用に最適化されたOCRシステムです。

動作環境

・「Linux」および「Mac OS X(x64とARMの両方)」で動作
・pipユーティリティのサポート
・Anacondaによるインストールのサポート

実行プロセス

「kraken」は、複数のステップのシリアル実行で文字認識を実施します。

①「レイアウト分析」+「ページ セグメンテーション」
・画像からトポロジーテキスト行を抽出

②認識
・テキスト行画像を分類器に供給

③出力
・最終的に結果をシリアル化

特徴

・完全にトレーニング可能な「レイアウト分析」+「文字認識」
・スクリプトタイプサポート :「Right-to-Left」「BiDi」「Top-to-Bottom」
・出力 :「ALTO」「PageXML」「abbyyXML」「hOCR」
・単語境界ボックス+文字カット
・マルチスクリプト認識のサポート
・モデルファイルのパブリックリポジトリ
・軽量モデルファイル
・変数認識ネットワークアーキテクチャ

オフィシャルサイト

→github.com →mittagessen/kraken

→kraken.re

⑦ドキュメント自動タグ付け「Paperless-ng」

【ツール紹介】無料オープンソース「 OCR 」ツールまとめ3選(Vol.2)

概要

「Paperless-ng」は、スキャンしたドキュメントにメタデータを付加することで、ドキュメントを簡単に検索できるようにするツールです。

特徴

■OCRによるタグ追加
・ドキュメントに対するOCRを実行
・ドキュメントに「タグ」「ドキュメントタイプ」追加
・テキストを画像のみドキュメントに追加

■サポートドキュメント
・PDF
・画像
・プレーンテキストファイル
・Officeドキュメント :「MicrosoftOfficeファイル」「LibreOfficeファイル」

■フロントエンドアプリケーション
・基本的な統計を表示
・ドキュメントをアップロードできるダッシュボード
・フィルタリング表示機能
・カスタマイズビュー作成

■全文検索機能
・検索単語オートコンプリート :ドキュメントから関連する単語を提案
・検索クエリ関連性による並べ替え表示
・該当箇所強調表示 :ドキュメントのどの部分がクエリに一致したかを把握
・類似ドキュメント検索

■機械学習による自動タグ付け
・ドキュメントから学習
・ドキュメントに「タグ」「タイプ」を自動的に割り当て

オフィシャルサイト

→github.com →jonaswinkler/paperless-ng

→paperless-ng.readthedocs.io

⑧ドキュメントを構造化データに変換「Parsr」

概要

「Parsr」は、ドキュメントを構造化データに変換するツールです。

各種ドキュメントに対して「クリーニング」「解析」「抽出」するためのツールチェーンとして利用できます。

ドキュメントを読み込んで「クリーンな構造化およびラベル強化された情報セット」を出力します。

出力構造化データ形式

・JSON
・Markdown
・CSV
・Pandas DF
・TXT

ユースケース

※「データサイエンティスト」および「開発者」向け
・データ入力自動化
・ドキュメント分析自動化
・ドキュメントアーカイブ

主な機能

・ドキュメントクリーニング
・階層再生成 :「段落」「行」「単語」
・検出:「見出し」「表」「リスト」「目次」「ページ番号」「ヘッダー/フッター」「リンク」

オフィシャルサイト

→github.com →axa-group/Parsr

【有償ツール】「 AI-OCR 」ツールまとめ3選

①市場シェアNo.1「DX Suite」

概要

「DX Suite」は、市場シェアNo.1のAI-OCRツールです。
・帳票などの紙ベースドキュメントを効率的にデジタル化
・「クラウド版」および「オンプレミス版」での利用が可能
・2300社を超えるユーザーが活用

特徴

■業界最高水準の文字認識精度
・自社開発の文字認識AI
・「手書き」「活字」「傾いた画像」などを高い精度で読み取り
・継続した「精度向上」「モデル向上」「機能追加」

■簡単操作
・わかりやすく使いやすいユーザーインターフェース
・読み取り箇所もマウスクリックで簡単設定

■さまざまな非定型帳票サポート
・フォーマットが異なる帳票を読み取り :「請求書」「図面」「契約書」など

■帳票自動仕分け機能「Elastic Sorter」
・まとめてアップロードしたドキュメントを種類ごとに自動仕分け
・「注文書セット」や「申込書セット」などの複数種類セットもサポート

■プライバシーコントロール
・アップロード画像データについて、AI学習データ提供の「許可or不許可」の選択が可能
・個人情報の取り扱いに厳しい用途への適用も可能

■高いセキュリティレベル
・通信経路暗号化 :「TSL1.2」
・金融系企業での導入実績も豊富

■各種システム連携
・RPAツールなどとAPI連携
・業務自動化を推進

オフィシャルサイト

→dx-suite.com

②2つのOCRエンジンによる高精度「AnyForm OCR」

概要

「AnyForm OCR」は、データ入力業務生産性向上OCRツールです。

特徴

■高い認識精度
・OCRエンジン選択:「読み取る項目」に応じてOCRエンジン選択が可能
・文字認識精度向上機能 :「項目演算設定」「項目検証設定」
・認識精度が高いため修正時間を削減可能

■ノンプログラミング読み取りエリア設定
・座標指定方式 :OCR処理座標を指定
・定型帳票の必要項目を選択
・自社内運用が可能

■豊富な機能 :データ入力業務の現場意見を多数採用
・マスタ参照
・明細自動演算機能
・辞書マスタ機能 :「商品名」「商品型番」など
・エクスポート機能 :「CSV」「TSV」「XML」
・マスター参照 :必要な情報の画面表示やデータ出力
・オリジナルイメージ表示 :OCR結果確認時に元画像を拡大表示
・分割表示 :特定部分で表示させたまま、他の部分をスクロール表示

■他システム連携
・充実した他製品との連携機能
・RPAツール連携により、データ入力業務を効率化

オフィシャルサイト

→hammock.jp →anyform

③オートセグメンテーション機能「AIスキャンロボ」

概要

「AIスキャンロボ」は、AIによるOCRデジタルスキャナーです。
・専門的知識+高度プログラミング能力を持つエンジニアによるAI開発
・高い文字認識精度
・簡単なテンプレート設定
・大幅なコストダウンおよび業務効率化を実現

特徴

■高い認識率
・独自開発 :特許出願済「文字種推定システム」「文字種推定方法」「文字種推定プログラム」
・ディープラーニング技術 :「CNN」「DNN」「LSTM」など

■オートセグメンテーション機能
・AIが自動的に判別し読み取りを開始
・文字認識範囲を座標固定する必要がない
・座標の変化を即座にキャッチ
・座標ズレのストレスを削減

■複雑帳票の読み取りに強み
・「1行の中に複数情報が混在している複雑構造」もサポート

■複数ページファイルの読み取り
・2ページ以上の連続帳票をAIが追随し読み取り
・ページ番号が記載された1シートのCSVに出力

■テンプレート自動判別
・読み取り時のテンプレートをAIが自動識別
・最適なテンプレートを自動的に選択
・多品種小ロットの帳票読み取りに最適

■パターン学習読取り機能
・項目選択の「記号」「マーク」などをパターン学習
・出力したいテキストデータに変換

■データベースマッチング機能
・予め登録したデータベース情報から一番近いものを選択
・軽微な誤認識を解消
・メンテナンスの必要なし :新しいアイテムを自動登録

■多言語対応
・日本語
・英語
・中国語(繁体字・簡体字)
・韓国語
・タイ語

オフィシャルサイト

→aiocr.ai

【お知らせ】ITセミナー「マジセミ」のご紹介

「 マジセミ 」では、日々、多くのIT関連セミナーを開催しています。

参加者のみなさまのために「本当に役立つ情報の提供」を目標としています。

また、「 マジセミ 」を通じて、デジタル関連プロダクト(サービス)との「新たな出会いの場」「新たな体験の場」を創造することで、「IT業界の発展」「製造業の発展」「エンジニアの活躍促進」の実現を目指しています。

多くのセミナーの中から「ご自身のスキルやビジネスを強化できるセミナー」を見つけて、ぜひ一度、ご参加ください。

【無料で使える】「 MSP 」管理ツールまとめ


参考サイト
→linuxlinks.com →「12 Best Free and Open Source OCR Tools」
→medium.com →「Review of Best Open-Source OCR Tools」
→towardsdatascience.com →「5 Open Source Tools You Can Use to Train and Deploy an OCR Project」
→ibm.com →「What Is Optical Character Recognition (OCR)?」
→parseur.com →「What is OCR? A full guide in 2022」
→klippa.com →「What is OCR? The Ultimate Guide to OCR 2022」
→aws.amazon.com →「OCR (光学文字認識) とは」
→medium.com →「Top Open-source OCR programs」
→github.com →search(OCR)
→qeee.jp →「【比較13選】AI-OCRとは?特徴や比較のポイントを徹底解説」
→boxil.jp →「【2022年】AI-OCR比較14選!OCRとの違いやメリット、選び方」
→aspicjapan.org →「AI OCR比較14選!仕組み・メリットから選び方までわかりやすく」

おすすめの記事

【トレンド解説】米国における「 生成AI活用 」最新動向📈

トレンド解説

2024.05.07

【トレンド解説】米国における「 生成AI活用 」最新動向📈

「米国における 生成AI活用 最新動向」について解説しています。生成AIは日本企業にも多くの可能性をもたらし、「デスクワークの効率化」や「業務の自動化推進」に貢献しています。生成AIを理解し、活用することが、グローバルな競争力を高める鍵となります。

【ChatGPT探訪】「 無限議論 」〜最強スタンド考察〜🤔

ChatGPT探訪

2024.05.07

【ChatGPT探訪】「 無限議論 」〜最強スタンド考察〜🤔

マジセミSNSに投稿した 【担当者A】の「 無限議論 」〜最強スタンド考察〜💬 を記事化したものです。 ChatGPTに課金していないみなさんにも、 AI同士の議論をお楽しみいただけます👍 ※原稿テキストを放り込むだけで、 ジョジョ風イラストを作成してしまう生成AIがすごくないですか?

経営活動に活用できる 原価管理 を実現するには? 〜製造業の現実的な課題に向き合い、現場視点から改善する原価管理手法の必達プロセスをご紹介〜

ウェビナーまとめ

2024.05.15

経営活動に活用できる 原価管理 を実現するには? 〜製造業の現実的な課題に向き合い、現場視点から改善する原価管理手法の必達プロセスをご紹介〜

2024年3月12日に三菱電機ITソリューションズ株式会社とアットストリームパートナーズ合同会社の共催で、組立加工製造業向けのセミナー「なぜか高くなる原価を管理する 不確実性の時代を乗り切るためのコスト戦略とは」が開催されました。本セミナーでは、製造業における原価管理の現状と改善手法について深く掘り下げ、経営活動への具体的な活用方法を提示しました。今回は、その講演の要点をお伝えします。