定型帳票のOCR処理を自動化し、最終的にExcelに取り込むまでの一連の流れを、概要から作業手順まで解説します。 今回は、オープンソースのOCRエンジンであるTesseractと、そのGUIツールであるGImageReaderを使用する前提で説明を進めます。 OCR処理の概要 全体の ...
今回はオープンソースでマルチプラットフォームのOCRエンジンであるTesseract OCRを使用し、 読み取り精度を確認してみます。 UbuntuでOCR? 「日本語でOCR」 と聞くと、 プロプライエタリの牙城というか、 高価なソフトを購入しないと実用に耐えないという ...
When I try to open the hocr file generated by gimagereader in another editor, it always says that it contains non-utf8 characters. If I replace these characters manually, even gimagereader will then ...
gImageReader seems to have problems with hypens. While OCRFeeder recognizes hypenated words and put them together, GIR keeps them separated, keeping the hypen. Is this some configuration stuff? If yes ...