2008/7/4 eduardo &lt;<a href="mailto:php_es@mamedu.com">php_es@mamedu.com</a>&gt;:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
El dv 04 de 07 de 2008 a les 10:28 -0300, en/na Pedro Gauna va escriure:<br>
<div><div></div><div class="Wj3C7c">&gt; &gt; hola<br>
&gt; &gt;<br>
&gt; &gt; tengo que escanear un buen monton de hojas, y quisiera crear con ellas<br>
&gt; &gt; un pdf de esos utiles donde puedas hacer busquedas de texto y<br>
&gt; &gt; encuentre cosillas. De momento estoy con la aplicación de xsane en una<br>
&gt; &gt; opcion que hay para hacer multipaginas y con ellas crear un pdf muy<br>
&gt; &gt; mono, pero del q no consigo una de las cosas buenas que tienen los<br>
&gt; &gt; pdf, que funcionen las busquedas. Que estoy haciendo mal? Los pdf que<br>
&gt; &gt; hay por ahi llevan un ingrediente especial? ...<br>
&gt; &gt;<br>
&gt; &gt; En este caso no hay mas error que el funcionamiento final, a ver si<br>
&gt; &gt; podeis darme una idea. :)<br>
&gt; &gt;<br>
&gt; &gt; Laura<br>
&gt; &gt;<br>
&gt; Laura, cuando escaneas algo te crea una imagen, no un archivo de texto o<br>
&gt; un pdf, por eso es que no funcionan las búsquedas.<br>
&gt;<br>
&gt; La solución sería utilizar un software que realice OCR (reconocimiento<br>
&gt; de texto) sobre tu imagen y luego arme el pdf.<br>
&gt; Hasta ahora no he encontrado nada similar en linux, &nbsp;hace poco encontré<br>
&gt; una aplicación llamada &#39;tesseract&#39; que reconoce muy bien el texto,<br>
&gt; pero no te arma el PDF igual. Lo único que conozco que realiza estoy muy<br>
&gt; bien es un software llamado &#39;Abby Fine Reader&#39; pero funciona<br>
&gt; sólo bajo Windows (y mac, creo)...<br>
&gt;<br>
&gt;<br>
<br>
</div></div>Si te reconoce el texto que es lo más complicado solo haría falta<br>
añadirlo a openoffice y crear un pdf. Digo.<br>
<font color="#888888"><br>
.:Eduardo<br>
</font></blockquote></div><br>Efectivamente, en repositorios hay dos paquetes de OCR:<br>- gocr, por línea de comandos, frontends gráficos en tcl/tk (gocr-tk) y gtk (gocr-gtk)<br>- tesseract, que ya lo ha comentado Pedro.<br>
<br>Instálalos con Synaptic y mira a ver cual va mejor (y si nos cuentas qué tal funcionan, mejor que mejor).<br><br>Una vez recuperado el texto, lo de montar un pdf es trivial.<br clear="all"><br>-- <br>Hugo Alonso.