[ubuntu-it] Convertire pdf "difficile" in testo

Mer 26 Ott 2011 14:52:04 UTC

In data mercoledì 26 ottobre 2011 16:44:43, pac ha scritto:
> Il 26 ottobre 2011 16:39, Luca 'remix_tj' Lorenzetto
> 
> <lorenzetto.luca a gmail.com> ha scritto:
> > 2011/10/26 pac <pacmoit a gmail.com>
> > 
> >> Ho un documento in pdf che ho scaricato e contiene solo testo, però
> >> non riesco a selezionare porzioni di testo
> >> Ho provato con pdftotext, ma anche semplicemente con il visualizzatore
> >> di documenti, Okular o LibreOffice. Non si riesce a fare la selezione
> >> di una parte di testo, cosa invece semplicissima per altri documenti.
> >> Qualcuno può suggerirmi qualche software che possa riuscire nell'intento
> >> ?
> > 
> > Dipende da come e' fatto il pdf. Spesso sono scansioni di documenti,
> > quindi non si puo' selezionare il testo in quanto si tratta di un
> > oggetto di tipo immagine.
> 
> Esatto. E' visto come un oggetto immagine. Non si riesce quindi ?

Puoi provare con un programma ocr tipo ocrfeeder (mi pare che sia nei 
repository). Carica l'immagine e fa il riconoscimento dei caratteri. 
Ovviamente non è perfetto e dovrai rimettere le mani sul documento...

-- 
sandro - http://majaglug.net
http://www.ternistoria.blogspot.com
http://www.informaticaitaliana.blogspot.com/
GNU/Linux-BlueStar 2.6.38-Linux User #499691 - Linux Machine #429253