[ubuntu-ar] PDFs de imagenes con OCR

Maxi maximiliano.duarte at gmail.com
Tue Jun 8 21:34:27 BST 2010


El 26 de mayo de 2010 08:59, Alberto Rosenberg
<licrosenberg en yahoo.com.ar>escribió:

> Sebastián, sí lo que busco es poder hacer el indexado del ocr con la imagen
> digital dentro del pdf, voy a probar el gscan2pdf  y luego les cuento como
> me fue.
>
> Muchas Gracias
> Alberto
>
> --- El *vie 21-may-10, Sebastian Abate <sebastianabate en gmail.com>*escribió:
>
>
> De: Sebastian Abate <sebastianabate en gmail.com>
> Asunto: Re: [ubuntu-ar] PDFs de imagenes con OCR
> Para: "Ubuntu User Group Argentina" <ubuntu-ar en lists.ubuntu.com>
> Fecha: viernes, 21 de mayo de 2010, 19:51
>
>
> 2010/5/21 Roman Gelbort <roman en piensalibre.com.ar<http://mc/compose?to=roman@piensalibre.com.ar>
> >:
> > El 21/05/10 08:41, Alberto Rosenberg escribió:
> >
> >> pero el software de windows al digitalizar da la opción de crear pdf, y
> >> estos pdf dentro tienen la opción de buscar texto, porque previamente
> >> hace el ocr, cuando uno abre el documento pdf esta mirando la imagen
> >> digital de un texto, pero el acrobat reader permite hacer busques en el
> >> y marcar copiar y pegar en otro documento, yo sabía que el acrobar (creo
> >> que la versión 8) permitia realizar este tipo de pdf, lo que es poder
> >> hacer esto en linux.
> >
> > Para extraer las imágenes contenidas en un pdf podés usar el programa
> > "pdfimages" desde consola. Luego, aplicar el ocr a esas imágenes.
> >
> > P.D.: ¿no era más fácil escanear correctamente las páginas? ;-)
> >
> > --
> > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> > Prof. Román H. Gelbort
> > Hagamos Cultura y Software Libres entre todos
> > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> >
> > --
> > Ubuntu-ar lista de correo
> > Ubuntu-ar en lists.ubuntu.com<http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com>
> > Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> > Siempre leer, comprender y aplicar nuestra etiqueta:
> https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
> >
> >
>
>
> Me parece que lo que Alberto necesita es poder "indexar" el texto para
> poder hacer búsquedas, y al encontrar el texto buscado muestre la hoja
> escaneada que lo contiene en el PDF. Si no entendí mal los pasos que
> necesita hacer son:
>
> 1) Escanear la imagen
> 2) Hacer OCR de la imagen escaneada
> 3) Generar el PDF desde las imágenes escaneadas (una por página)
> 4) Asociar el texto reconocido de cada imágen con la página
> correspondiente en el PDF
>
> Si esto es lo que necesitás, tenés el gscan2pdf en los repositorios
> que hace justamente esto que te listo; el tema es que no te permite
> después seleccionar el texto; lo que hace es reconocer el texto y
> asociarlo, como bloque, a la página que corresponda (hace el OCR con
> el tesseract, y hasta te permite elegir qué diccionario utilizar, por
> si tenés texto en distintos idiomas; también puede usar otros motores
> OCR), después de generar el pdf, cuando buscás el texto, te encuentra
> la página con ese texto asociado, pero en la página solamente hay una
> imágen (si pasás el mouse por encima de la imagen te muestra todo el
> bloque de texto que tiene asociado, pero no te permite seleccionar, ni
> te resalta la palabra buscada en la imagen, como hace el acrobat)
>
> Espero que te sirva.
>
> --
> Sebastián Abate
> Quattro-D
> 15-3589-7730
> abates en quattrod.com.ar <http://mc/compose?to=abates@quattrod.com.ar>
>
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com<http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com>
> Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> Siempre leer, comprender y aplicar nuestra etiqueta:
> https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
>
>
>
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com
> Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> Siempre leer, comprender y aplicar nuestra etiqueta:
> https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
>
>
>
Encontre esto para hacer ocr sobre pdf

http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+sliceoflinux+%28Slice+of+Linux%29&utm_content=Google+International

-- 
Twitter: @nenunocomar
Maximiliano Duarte
Linux User #495070
Ubuntu User #28504

El que pregunta aprende, y el que contesta aprende a responder.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: https://lists.ubuntu.com/archives/ubuntu-ar/attachments/20100608/0122d50c/attachment-0001.htm 


More information about the Ubuntu-ar mailing list