[Ubuntu-BR] Bug do Tesseract

Jose Geraldo Gouvea jggouvea em gmail.com
Terça Agosto 18 01:04:42 UTC 2009


Comprei uma impressora multifuncional esses dias (absurdo! eu só queria
o scanner, mas hoje em dia só existem multifuncionais à venda! me sinto
assaltado por ter que pagar quase 400 reais para poder escanear!
especialmente porque, por esse preço, em outros paises, se pode comprar
um scanner com o triplo da resolução do scanner que vem na HP 4280!).

Ao tentar fazer ocr de um documento escaneado, usando o Tesseract, notei
que nunca obtinha resultados. Gastei umas boas duas horas lendo a
documentação do programa no site oficial e descobri que ele depende de
uma biblioteca chamada libleptonica. Acontece que esta lib,  mesmo
estando empacotada pelo Ubuntu, não é dependência do Tesseract! Imagino
que esse seja um erro de empacotamento comparável a um pacote do GIMP
que não depende do GTK.

Como se trata de um pacote mantido pela comunidade (universe) e como eu
não tenho conta do launchpad (já tenho contas demais na web, gostaria de
não ter que criar mais... rsrs), gostaria de pedir a algum membro da
lista que registre este bug.

Em tempo, acabei compilando e instalando manualmente tanto a
libleptonica quanto o tesseract (versão mais atual). Graças ao Paco isso
não vai ferrar meu sistema. Recomendo FORTEMENTE o tesseract para quem
quiser fazer OCR. Mesmo com uma xerox de má qualidade ele conseguiu mais
de 80% de acerto no reconhecimento. Trata-se realmente de um programa
sensacional!





More information about the ubuntu-br mailing list