<div class="gmail_quote">El 26 de mayo de 2010 08:59, Alberto Rosenberg <<a href="mailto:licrosenberg@yahoo.com.ar">licrosenberg@yahoo.com.ar</a>> escribió: <blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"> <table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td style="font: inherit;" valign="top">Sebastián, sí lo que busco es poder hacer el indexado del ocr con la imagen digital dentro del pdf, voy a probar el gscan2pdf y luego les cuento como me fue. Muchas Gracias Alberto --- El vie 21-may-10, Sebastian Abate <<a href="mailto:sebastianabate@gmail.com" target="_blank">sebastianabate@gmail.com</a>> escribió: <blockquote style="border-left: 2px solid rgb(16, 16, 255); margin-left: 5px; padding-left: 5px;"> De: Sebastian Abate <<a href="mailto:sebastianabate@gmail.com" target="_blank">sebastianabate@gmail.com</a>> Asunto: Re: [ubuntu-ar] PDFs de imagenes con OCR Para: "Ubuntu User Group Argentina" <<a href="mailto:ubuntu-ar@lists.ubuntu.com" target="_blank">ubuntu-ar@lists.ubuntu.com</a>> Fecha: viernes, 21 de mayo de 2010, 19:51<div><div></div><div class="h5"> <div>2010/5/21 Roman Gelbort <<a href="http://mc/compose?to=roman@piensalibre.com.ar" target="_blank">roman@piensalibre.com.ar</a>>: > El 21/05/10 08:41, Alberto Rosenberg escribió: > >> pero el software de windows al digitalizar da la opción de crear pdf, y >> estos pdf dentro tienen la opción de buscar texto, porque previamente >> hace el ocr, cuando uno abre el documento pdf esta mirando la imagen >> digital de un texto, pero el acrobat reader permite hacer busques en el >> y marcar copiar y pegar en otro documento, yo sabía que el acrobar (creo >> que la versión 8) permitia realizar este tipo de pdf, lo que es poder >> hacer esto en linux. > > Para extraer las imágenes contenidas en un pdf podés usar el programa > "pdfimages" desde consola. Luego, aplicar el ocr a esas imágenes. > > P.D.: ¿no era más fácil escanear correctamente las páginas? ;-) > > -- > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ > Prof. Román H. Gelbort > Hagamos Cultura y Software Libres entre todos > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ > > -- > Ubuntu-ar lista de correo > <a href="http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com" target="_blank">Ubuntu-ar@lists.ubuntu.com</a> > Modifica tus opciones o desuscribite en: <a href="https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar" target="_blank">https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar</a> > Siempre leer, comprender y aplicar nuestra etiqueta: <a href="https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML" target="_blank">https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML</a> > > Me parece que lo que Alberto necesita es poder "indexar" el texto para poder hacer búsquedas, y al encontrar el texto buscado muestre la hoja escaneada que lo contiene en el PDF. Si no entendí mal los pasos que necesita hacer son: 1) Escanear la imagen 2) Hacer OCR de la imagen escaneada 3) Generar el PDF desde las imágenes escaneadas (una por página) 4) Asociar el texto reconocido de cada imágen con la página correspondiente en el PDF Si esto es lo que necesitás, tenés el gscan2pdf en los repositorios que hace justamente esto que te listo; el tema es que no te permite después seleccionar el texto; lo que hace es reconocer el texto y asociarlo, como bloque, a la página que corresponda (hace el OCR con el tesseract, y hasta te permite elegir qué diccionario utilizar, por si tenés texto en distintos idiomas; también puede usar otros motores OCR), después de generar el pdf, cuando buscás el texto, te encuentra la página con ese texto asociado, pero en la página solamente hay una imágen (si pasás el mouse por encima de la imagen te muestra todo el bloque de texto que tiene asociado, pero no te permite seleccionar, ni te resalta la palabra buscada en la imagen, como hace el acrobat) Espero que te sirva. -- Sebastián Abate Quattro-D 15-3589-7730 <a href="http://mc/compose?to=abates@quattrod.com.ar" target="_blank">abates@quattrod.com.ar</a> -- Ubuntu-ar lista de correo <a href="http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com" target="_blank">Ubuntu-ar@lists.ubuntu.com</a> Modifica tus opciones o desuscribite en: <a href="https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar" target="_blank">https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar</a> Siempre leer, comprender y aplicar nuestra etiqueta: <a href="https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML" target="_blank">https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML</a> </div></div></div></blockquote></td> </tr></tbody></table> -- Ubuntu-ar lista de correo <a href="mailto:Ubuntu-ar@lists.ubuntu.com">Ubuntu-ar@lists.ubuntu.com</a> Modifica tus opciones o desuscribite en: <a href="https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar" target="_blank">https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar</a> Siempre leer, comprender y aplicar nuestra etiqueta: <a href="https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML" target="_blank">https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML</a> </blockquote></div> Encontre esto para hacer ocr sobre pdf <a href="http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+sliceoflinux+%28Slice+of+Linux%29&utm_content=Google+International">http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+sliceoflinux+%28Slice+of+Linux%29&utm_content=Google+International</a> -- Twitter: @nenunocomar Maximiliano Duarte Linux User #495070 Ubuntu User #28504 El que pregunta aprende, y el que contesta aprende a responder.