[ubuntu-ar] PDFs de imagenes con OCR

Fri May 21 23:51:08 BST 2010

2010/5/21 Roman Gelbort <roman en piensalibre.com.ar>:
> El 21/05/10 08:41, Alberto Rosenberg escribió:
>
>> pero el software de windows al digitalizar da la opción de crear pdf, y
>> estos pdf dentro tienen la opción de buscar texto, porque previamente
>> hace el ocr, cuando uno abre el documento pdf esta mirando la imagen
>> digital de un texto, pero el acrobat reader permite hacer busques en el
>> y marcar copiar y pegar en otro documento, yo sabía que el acrobar (creo
>> que la versión 8) permitia realizar este tipo de pdf, lo que es poder
>> hacer esto en linux.
>
> Para extraer las imágenes contenidas en un pdf podés usar el programa
> "pdfimages" desde consola. Luego, aplicar el ocr a esas imágenes.
>
> P.D.: ¿no era más fácil escanear correctamente las páginas? ;-)
>
> --
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> Prof. Román H. Gelbort
> Hagamos Cultura y Software Libres entre todos
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
>
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com
> Modifica tus opciones o desuscribite en: https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> Siempre leer, comprender y aplicar nuestra etiqueta: https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
>
>

Me parece que lo que Alberto necesita es poder "indexar" el texto para
poder hacer búsquedas, y al encontrar el texto buscado muestre la hoja
escaneada que lo contiene en el PDF. Si no entendí mal los pasos que
necesita hacer son:

1) Escanear la imagen
2) Hacer OCR de la imagen escaneada
3) Generar el PDF desde las imágenes escaneadas (una por página)
4) Asociar el texto reconocido de cada imágen con la página
correspondiente en el PDF

Si esto es lo que necesitás, tenés el gscan2pdf en los repositorios
que hace justamente esto que te listo; el tema es que no te permite
después seleccionar el texto; lo que hace es reconocer el texto y
asociarlo, como bloque, a la página que corresponda (hace el OCR con
el tesseract, y hasta te permite elegir qué diccionario utilizar, por
si tenés texto en distintos idiomas; también puede usar otros motores
OCR), después de generar el pdf, cuando buscás el texto, te encuentra
la página con ese texto asociado, pero en la página solamente hay una
imágen (si pasás el mouse por encima de la imagen te muestra todo el
bloque de texto que tiene asociado, pero no te permite seleccionar, ni
te resalta la palabra buscada en la imagen, como hace el acrobat)

Espero que te sirva.

-- 
Sebastián Abate
Quattro-D
15-3589-7730
abates en quattrod.com.ar