<br><br><div class="gmail_quote">El 26 de mayo de 2010 08:59, Alberto Rosenberg <span dir="ltr">&lt;<a href="mailto:licrosenberg@yahoo.com.ar">licrosenberg@yahoo.com.ar</a>&gt;</span> escribió:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td style="font: inherit;" valign="top">Sebastián, sí lo que busco es poder hacer el indexado del ocr con la imagen digital dentro del pdf, voy a probar el gscan2pdf  y luego les cuento como me fue.<br>

<br>Muchas Gracias<br>Alberto<br><br>--- El <b><span>vie</span> 21-may-10, Sebastian Abate <i>&lt;<a href="mailto:sebastianabate@gmail.com" target="_blank">sebastianabate@gmail.com</a>&gt;</i></b> escribió:<br><blockquote style="border-left: 2px solid rgb(16, 16, 255); margin-left: 5px; padding-left: 5px;">

<br>De: Sebastian Abate &lt;<a href="mailto:sebastianabate@gmail.com" target="_blank">sebastianabate@gmail.com</a>&gt;<br>Asunto: Re: [ubuntu-ar] PDFs de imagenes con OCR<br>Para: &quot;Ubuntu User Group Argentina&quot; &lt;<a href="mailto:ubuntu-ar@lists.ubuntu.com" target="_blank">ubuntu-ar@lists.ubuntu.com</a>&gt;<br>

Fecha: viernes, 21 de mayo de 2010, 19:51<div><div></div><div class="h5"><br><br><div>2010/5/21 Roman Gelbort &lt;<a href="http://mc/compose?to=roman@piensalibre.com.ar" target="_blank">roman@piensalibre.com.ar</a>&gt;:<br>

&gt; El 21/05/10 08:41, Alberto Rosenberg
 escribió:<br>&gt;<br>&gt;&gt; pero el software de windows al digitalizar da la opción de crear pdf, y<br>&gt;&gt; estos pdf dentro tienen la opción de buscar texto, porque previamente<br>&gt;&gt; hace el ocr, cuando uno abre el documento pdf esta mirando la imagen<br>

&gt;&gt; digital de un texto, pero el acrobat reader permite hacer busques en el<br>&gt;&gt; y marcar copiar y pegar en otro documento, yo sabía que el acrobar (creo<br>&gt;&gt; que la versión 8) permitia realizar este tipo de pdf, lo que es poder<br>

&gt;&gt; hacer esto en linux.<br>&gt;<br>&gt; Para extraer las imágenes contenidas en un pdf podés usar el programa<br>&gt; &quot;pdfimages&quot; desde consola. Luego, aplicar el ocr a esas imágenes.<br>&gt;<br>&gt; P.D.: ¿no era más fácil escanear correctamente las páginas? ;-)<br>

&gt;<br>&gt; --<br>&gt; ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<br>&gt; Prof. Román H. Gelbort<br>&gt; Hagamos Cultura y Software Libres entre
 todos<br>&gt; ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<br>&gt;<br>&gt; --<br>&gt; Ubuntu-ar lista de correo<br>&gt; <a href="http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com" target="_blank">Ubuntu-ar@lists.ubuntu.com</a><br>

&gt; Modifica tus opciones o desuscribite en: <a href="https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar" target="_blank">https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar</a><br>&gt; Siempre leer, comprender y aplicar nuestra etiqueta: <a href="https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML" target="_blank">https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML</a><br>

&gt;<br>&gt;<br><br><br>Me parece que lo que Alberto necesita es poder &quot;indexar&quot; el texto para<br>poder hacer búsquedas, y al encontrar el texto buscado muestre la hoja<br>escaneada que lo contiene en el PDF. Si no entendí mal los pasos que<br>

necesita hacer son:<br><br>1) Escanear la imagen<br>2) Hacer OCR de la imagen
 escaneada<br>3) Generar el PDF desde las imágenes escaneadas (una por página)<br>4) Asociar el texto reconocido de cada imágen con la página<br>correspondiente en el PDF<br><br>Si esto es lo que necesitás, tenés el gscan2pdf en los repositorios<br>

que hace justamente esto que te listo; el tema es que no te permite<br>después seleccionar el texto; lo que hace es reconocer el texto y<br>asociarlo, como bloque, a la página que corresponda (hace el OCR con<br>el tesseract, y hasta te permite elegir qué diccionario utilizar, por<br>

si tenés texto en distintos idiomas; también puede usar otros motores<br>OCR), después de generar el pdf, cuando buscás el texto, te encuentra<br>la página con ese texto asociado, pero en la página solamente hay una<br>imágen (si pasás el mouse por encima de la imagen te muestra todo el<br>

bloque de texto que tiene asociado, pero no te permite seleccionar, ni<br>te resalta la palabra buscada en la imagen, como
 hace el acrobat)<br><br>Espero que te sirva.<br><br>-- <br>Sebastián Abate<br>Quattro-D<br>15-3589-7730<br><a href="http://mc/compose?to=abates@quattrod.com.ar" target="_blank">abates@quattrod.com.ar</a><br><br>-- <br>Ubuntu-ar lista de correo<br>

<a href="http://mc/compose?to=Ubuntu-ar@lists.ubuntu.com" target="_blank">Ubuntu-ar@lists.ubuntu.com</a><br>Modifica tus opciones o desuscribite en: <a href="https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar" target="_blank">https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar</a><br>

Siempre leer, comprender y aplicar nuestra etiqueta: <a href="https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML" target="_blank">https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML</a><br><br></div></div></div></blockquote></td>

</tr></tbody></table><br>




       <br>--<br>
Ubuntu-ar lista de correo<br>
<a href="mailto:Ubuntu-ar@lists.ubuntu.com">Ubuntu-ar@lists.ubuntu.com</a><br>
Modifica tus opciones o desuscribite en: <a href="https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar" target="_blank">https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar</a><br>
Siempre leer, comprender y aplicar nuestra etiqueta: <a href="https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML" target="_blank">https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML</a><br>
<br>
<br></blockquote></div><br>Encontre esto para hacer ocr sobre pdf<br><br clear="all"><a href="http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=Feed%3A+sliceoflinux+%28Slice+of+Linux%29&amp;utm_content=Google+International">http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=Feed%3A+sliceoflinux+%28Slice+of+Linux%29&amp;utm_content=Google+International</a><br>

<br>-- <br>Twitter: @nenunocomar<br>Maximiliano Duarte<br>Linux User #495070<br>Ubuntu User #28504<br><br>El que pregunta aprende, y el que contesta aprende a responder.<br>