CentOS7 tesseract3.04をビルドして実行する

検証環境

検証日時

  • 2018/07/09

参考ページ

参考ページの手順でコマンドを実行して上手く動作しなかった部分がありました。

そのとき対応したことを記載します。

 

必要なライブラリをインストール

以下のライブラリを追加でインストールしました。

yum install -y wget

yum install -y gcc gcc-c++

yum install -y git

Leptonicaのバージョンは1.74.4を選択しました。

wget http://www.leptonica.com/source/leptonica-1.74.4.tar.gz

 

tesseract-ocrと辞書のインストール

参考ページはgit cloneしたあとmasterブランチに切り替えた状態でautogen.shやconfigureを実行しています。ところがmasterや3.05ブランチでconfigureを実行すると以下のエラーが発生します。Leptonicaのバージョンは満たしているはずですが…3.04ブランチはエラーが発生せずビルドすることができました。

configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package. 

 

traineddataのコピー

環境変数TESSDATA_PREFIXで設定したディレクトリに存在するtessdataにコピーする必要があります。例えばTESSDATA_PREFIXに/usr/local/src/tesseract/を設定した場合、tesseractコマンドを実行すると以下のディレクトリのtraineddataを参照します。

 /usr/local/src/tesseract/tessdata/jpn.traineddata