[ubuntu-it] OCR sotto Ubuntu

mauro a majaglug.net mauro a majaglug.net
Ven 11 Giu 2010 05:41:24 BST


Il giorno 10/giu/2010, alle ore 23.14, ivo.linux ha scritto:

> Con il metodo speciale ivolinux utilizzando una combinazione di 
> programmi tutti presenti nei repo di ubuntu xsane/gimp/tesseract
> 1. xsane scannerizzi il documento ad una risoluzione compresa fra i 
> 300-600 dpi
> 
> 2 con gim apri il documento aggiusti il valore di threshold e poi 
> imposti l'immagine indicizzata ad 1 bit (image > mode > indexed >use 
> black on white (1-bit) palette). Quindi salvi come bmp
> 
> 3 apri un terminale che punta alla directory ke contiene le tue immagini 
> e digita
> tesseract nome_file.bmp nome_file


la variante che propongo non e' testata, ma penso possa essere ben
adattata per un uso massivo e automatizzato dell'ocr.

Visto che sono un fan della riga di comando, un sano e abbondante
script per:

scannerizzare: scanimage 
aggistare : image-magick (convert)
tesseract: per la conversione.

che dite? si potra fare?
nel mio caso uso pesantemente l'accoppiata dei primi due insieme a 
un po' di script python per l'archiviazione massiccia di documenti e
a distanza di anni l'unica cosa di cui sento la mancanza (ma 
per colpa della mia pigrizia) e' un sistema di catalogazione piu'
robusto, ma per il resto viene bene di suo.


--
mauro [at] majaglug [dot] net







Maggiori informazioni sulla lista ubuntu-it