2008/7/4 eduardo <<a href="mailto:php_es@mamedu.com">php_es@mamedu.com</a>>: <div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"> El dv 04 de 07 de 2008 a les 10:28 -0300, en/na Pedro Gauna va escriure: <div><div></div><div class="Wj3C7c">> > hola > > > > tengo que escanear un buen monton de hojas, y quisiera crear con ellas > > un pdf de esos utiles donde puedas hacer busquedas de texto y > > encuentre cosillas. De momento estoy con la aplicación de xsane en una > > opcion que hay para hacer multipaginas y con ellas crear un pdf muy > > mono, pero del q no consigo una de las cosas buenas que tienen los > > pdf, que funcionen las busquedas. Que estoy haciendo mal? Los pdf que > > hay por ahi llevan un ingrediente especial? ... > > > > En este caso no hay mas error que el funcionamiento final, a ver si > > podeis darme una idea. :) > > > > Laura > > > Laura, cuando escaneas algo te crea una imagen, no un archivo de texto o > un pdf, por eso es que no funcionan las búsquedas. > > La solución sería utilizar un software que realice OCR (reconocimiento > de texto) sobre tu imagen y luego arme el pdf. > Hasta ahora no he encontrado nada similar en linux,  hace poco encontré > una aplicación llamada 'tesseract' que reconoce muy bien el texto, > pero no te arma el PDF igual. Lo único que conozco que realiza estoy muy > bien es un software llamado 'Abby Fine Reader' pero funciona > sólo bajo Windows (y mac, creo)... > > </div></div>Si te reconoce el texto que es lo más complicado solo haría falta añadirlo a openoffice y crear un pdf. Digo. .:Eduardo </blockquote></div> Efectivamente, en repositorios hay dos paquetes de OCR: - gocr, por línea de comandos, frontends gráficos en tcl/tk (gocr-tk) y gtk (gocr-gtk) - tesseract, que ya lo ha comentado Pedro. Instálalos con Synaptic y mira a ver cual va mejor (y si nos cuentas qué tal funcionan, mejor que mejor). Una vez recuperado el texto, lo de montar un pdf es trivial. -- Hugo Alonso.