私の作業として、PDF書類をテキスト化してホームページ、ブログに書くことがあります。
その作業を簡単に出来ないかと考えて、
試しにAcrobatのOCR機能を使ってみたところ処理中に書類の微妙な傾きが
自動的に調整されました。
OCR処理すんだ後に、テキスト検索をしてみると、確かにヒットします。
ではこの画像として読み込まれた見かけ上、文字のデータをテキストと認識させる
OCRの機能を使って、読み込んだPDFファイルからテキストを取り出すことが
できないだろうか?という疑問というか欲求が湧きました。
今までは読んde!!ココ ver7を使って、PDF → jpeg → OCRとしていたのですが、
文字データ、テキストデータを取り出すのに時間がかかり、下線付き文字や囲み文字、
白抜きの文字に読み込みエラーがあり、調整が大変です。
それがAcrobatでテキストデータに変換できれば手順がショートカットされ、
時間の短縮になりますから、私としては助かる訳です。
販売元のアドビの解説、ヘルプは私にとってはわかりづらく、
アドビ社製品はいっこづつ手探りで機能を検証しなければなりません。
通常はスキャナー、200dpiで読み込みますのでそれでAcrobatのOCR認識をさせたところ、
おおよそ20%ほどが誤認識していいました。
→ 400dpiでの認識では10%くらいでしょうか、精度が全く違います。
それを今度は600dpiに上げたところ、5%以下になりました。
いずれも体感値です。
しかしこちらも白抜きの文字はテキストとして認識されません。
AcrobatOCRテキストで書き出しの手順としては、
- 600dpiでスキャニングしてPDFで取り込む。
- Acrobatで開き、それからAcrobat、文書/OCRテキスト認識/OCRを使用してテキストを認識…を選択。
- 別名で保存時にプレーンテキストを選択します。
すると、OCRソフトとほぼ同じ結果が得られました。
このAcrobat(製品版)でのOCR機能は有効使えると思います。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー