自定义字典为Tesseract

我目前正在使用tesseract OCR的Android项目。 我希望通过添加一个字典来调整给用户的结果。 根据http://code.google.com/p/tesseract-ocr/wiki/FAQ ,最好的方法是去

用你自己的单词列表replacetessdata / eng.user-words,格式相同 – UTF8文本,每行一个单词。

但是,tessdata文件夹中没有eng.user-words文件,我假设如果我只是用它的字典创build一个文本文件,它将永远不会被使用..

有没有人有类似的经验,知道该怎么办? 任何build议将是一个很大的帮助。

  • 在Tesseract中识别数字的麻烦 - android
  • 如果你正在使用tesseract 3(我认为你是)。 你将不得不重build您的eng.trainddata文件,我打算完全取代word-dawg文件,以获得更好的结果(即我检测到的单词总是相同的)。

    在编译tesseract时,您需要在训练目录中使用combine_tessdata和wordlist2dawg可执行文件。

    1. 解压所有的东西(我做了这个只是为了备份我的eng.word-dawg,之后你还需要unicharset)

      ./combine_tessdata -u eng.traineddata

    2. 创build你的wordlist(wordlistfile)的文本文件

    3. 创build一个eng.word-dawg

      ./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset

    4. replaceword-dawg文件

      ./combine_tessdata -o eng.traineddata eng.word-dawg

    应该是这样的。