TessOCRを使えるようにするのに苦労しています。
なにせ、ターミナルの使い方がよくわかりませんので。
これは自分のスキルでは敷居が高く、相当なハードルの高さです。
そこで当座の代替措置として、Mac用のOCRアプリケーションの読取革命か、
AdobeAcrobatPro ver9.5.2のOCR機能を使ってみることにしました。
まず、手始めとしてAcrobatのOCR機能を。
手元にあった見積書を、プルダウンメニュー/OCRテキスト認識/OCRを使用してテキストを認識。
とするとPDF形式では画像を含むので(印鑑の部分)エラーになりましたが、
一旦png形式で書き出し、それを読み込んでみました。
自動的に書類の水平を直し、体感的には85〜90%程度の認識率で読み取ってくれたようです。
文字の潰れのあるFAX文書ではつらいかもしれませんが、当座の使用としてはまずまずかとおもいます。
代替ですのでやむを得ません。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー