[ubuntu-ar] PDFs de imagenes con OCR

Tue Jun 8 21:34:27 BST 2010

El 26 de mayo de 2010 08:59, Alberto Rosenberg
<licrosenberg en yahoo.com.ar>escribiÃ³:

> SebastiÃ¡n, sÃ lo que busco es poder hacer el indexado del ocr con la imagen
> digital dentro del pdf, voy a probar el gscan2pdf  y luego les cuento como
> me fue.
>
> Muchas Gracias
> Alberto
>
> --- El *vie 21-may-10, Sebastian Abate <sebastianabate en gmail.com>*escribiÃ³:
>
>
> De: Sebastian Abate <sebastianabate en gmail.com>
> Asunto: Re: [ubuntu-ar] PDFs de imagenes con OCR
> Para: "Ubuntu User Group Argentina" <ubuntu-ar en lists.ubuntu.com>
> Fecha: viernes, 21 de mayo de 2010, 19:51
>
>
> 2010/5/21 Roman Gelbort <roman en piensalibre.com.ar<http://mc/compose?to=roman@piensalibre.com.ar>
> >:
> > El 21/05/10 08:41, Alberto Rosenberg escribiÃ³:
> >
> >> pero el software de windows al digitalizar da la opciÃ³n de crear pdf, y
> >> estos pdf dentro tienen la opciÃ³n de buscar texto, porque previamente
> >> hace el ocr, cuando uno abre el documento pdf esta mirando la imagen
> >> digital de un texto, pero el acrobat reader permite hacer busques en el
> >> y marcar copiar y pegar en otro documento, yo sabÃa que el acrobar (creo
> >> que la versiÃ³n 8) permitia realizar este tipo de pdf, lo que es poder
> >> hacer esto en linux.
> >
> > Para extraer las imÃ¡genes contenidas en un pdf podÃ©s usar el programa
> > "pdfimages" desde consola. Luego, aplicar el ocr a esas imÃ¡genes.
> >
> > P.D.: Â¿no era mÃ¡s fÃ¡cil escanear correctamente las pÃ¡ginas? ;-)
> >
> > --
> > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> > Prof. RomÃ¡n H. Gelbort
> > Hagamos Cultura y Software Libres entre todos
> > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> >
> > --
> > Ubuntu-ar lista de correo
> > Ubuntu-ar en lists.ubuntu.com<http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com>
> > Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> > Siempre leer, comprender y aplicar nuestra etiqueta:
> https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
> >
> >
>
>
> Me parece que lo que Alberto necesita es poder "indexar" el texto para
> poder hacer bÃºsquedas, y al encontrar el texto buscado muestre la hoja
> escaneada que lo contiene en el PDF. Si no entendÃ mal los pasos que
> necesita hacer son:
>
> 1) Escanear la imagen
> 2) Hacer OCR de la imagen escaneada
> 3) Generar el PDF desde las imÃ¡genes escaneadas (una por pÃ¡gina)
> 4) Asociar el texto reconocido de cada imÃ¡gen con la pÃ¡gina
> correspondiente en el PDF
>
> Si esto es lo que necesitÃ¡s, tenÃ©s el gscan2pdf en los repositorios
> que hace justamente esto que te listo; el tema es que no te permite
> despuÃ©s seleccionar el texto; lo que hace es reconocer el texto y
> asociarlo, como bloque, a la pÃ¡gina que corresponda (hace el OCR con
> el tesseract, y hasta te permite elegir quÃ© diccionario utilizar, por
> si tenÃ©s texto en distintos idiomas; tambiÃ©n puede usar otros motores
> OCR), despuÃ©s de generar el pdf, cuando buscÃ¡s el texto, te encuentra
> la pÃ¡gina con ese texto asociado, pero en la pÃ¡gina solamente hay una
> imÃ¡gen (si pasÃ¡s el mouse por encima de la imagen te muestra todo el
> bloque de texto que tiene asociado, pero no te permite seleccionar, ni
> te resalta la palabra buscada en la imagen, como hace el acrobat)
>
> Espero que te sirva.
>
> --
> SebastiÃ¡n Abate
> Quattro-D
> 15-3589-7730
> abates en quattrod.com.ar <http://mc/compose?to=abates@quattrod.com.ar>
>
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com<http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com>
> Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> Siempre leer, comprender y aplicar nuestra etiqueta:
> https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
>
>
>
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com
> Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar
> Siempre leer, comprender y aplicar nuestra etiqueta:
> https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
>
>
>
Encontre esto para hacer ocr sobre pdf

http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+sliceoflinux+%28Slice+of+Linux%29&utm_content=Google+International

-- 
Twitter: @nenunocomar
Maximiliano Duarte
Linux User #495070
Ubuntu User #28504

El que pregunta aprende, y el que contesta aprende a responder.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: https://lists.ubuntu.com/archives/ubuntu-ar/attachments/20100608/0122d50c/attachment-0001.htm