2008/7/4 eduardo <<a href="mailto:php_es@mamedu.com">php_es@mamedu.com</a>>:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
El dv 04 de 07 de 2008 a les 10:28 -0300, en/na Pedro Gauna va escriure:<br>
<div><div></div><div class="Wj3C7c">> > hola<br>
> ><br>
> > tengo que escanear un buen monton de hojas, y quisiera crear con ellas<br>
> > un pdf de esos utiles donde puedas hacer busquedas de texto y<br>
> > encuentre cosillas. De momento estoy con la aplicación de xsane en una<br>
> > opcion que hay para hacer multipaginas y con ellas crear un pdf muy<br>
> > mono, pero del q no consigo una de las cosas buenas que tienen los<br>
> > pdf, que funcionen las busquedas. Que estoy haciendo mal? Los pdf que<br>
> > hay por ahi llevan un ingrediente especial? ...<br>
> ><br>
> > En este caso no hay mas error que el funcionamiento final, a ver si<br>
> > podeis darme una idea. :)<br>
> ><br>
> > Laura<br>
> ><br>
> Laura, cuando escaneas algo te crea una imagen, no un archivo de texto o<br>
> un pdf, por eso es que no funcionan las búsquedas.<br>
><br>
> La solución sería utilizar un software que realice OCR (reconocimiento<br>
> de texto) sobre tu imagen y luego arme el pdf.<br>
> Hasta ahora no he encontrado nada similar en linux, hace poco encontré<br>
> una aplicación llamada 'tesseract' que reconoce muy bien el texto,<br>
> pero no te arma el PDF igual. Lo único que conozco que realiza estoy muy<br>
> bien es un software llamado 'Abby Fine Reader' pero funciona<br>
> sólo bajo Windows (y mac, creo)...<br>
><br>
><br>
<br>
</div></div>Si te reconoce el texto que es lo más complicado solo haría falta<br>
añadirlo a openoffice y crear un pdf. Digo.<br>
<font color="#888888"><br>
.:Eduardo<br>
</font></blockquote></div><br>Efectivamente, en repositorios hay dos paquetes de OCR:<br>- gocr, por línea de comandos, frontends gráficos en tcl/tk (gocr-tk) y gtk (gocr-gtk)<br>- tesseract, que ya lo ha comentado Pedro.<br>
<br>Instálalos con Synaptic y mira a ver cual va mejor (y si nos cuentas qué tal funcionan, mejor que mejor).<br><br>Una vez recuperado el texto, lo de montar un pdf es trivial.<br clear="all"><br>-- <br>Hugo Alonso.