Re: Ubuntu 11.04, είναι εδώ!

Fri Apr 29 11:17:05 UTC 2011

2011/4/29 Simos Xenitellis <simos.lists at googlemail.com>:
> 2011/4/29 Pantelis  Koukousoulas <pktoss at gmail.com>:
>> 2011/4/29 Simos Xenitellis <simos.lists at googlemail.com>:
>>> 2011/4/29 Βασίλης Παπατσίμπας <vpapatsimpas at gmail.com>:
>>>> Για 2-3 χρόνια κρατούσα το partition των windows για το abbyy finereader
>>>> (ΟCR) και για δημιουργία DVD από *avi με υπότιτλους* χρησιμοποιώντας το
>>>> ConvertxToDvD.
>>>> Το πρώτο [finereader] το ψάχνω ακόμη... [δε δουλεύει καλά  μέσω wine]
>>>
>>> Υπάρχει το πρόγραμμα tesseract που δουλεύει και για ελληνικά,
>>> http://forum.ubuntu-gr.org/viewtopic.php?f=9&t=16669
>>
>> Το tesseract δεν προσφέρει ουσιαστικά τίποτα σε αυτό τον τομέα (η είσοδος που
>> περιμένει είναι γραμμές από χαρακτήρες).
>>
>> Το project με τις μεγαλύτερες ελπίδες για ανταγωνιστικό engine είναι το Ocropus
>> που αναπτύσσεται με τη βοήθεια της Google.
>
> To tesseract3 είναι το «OCR engine» για προγράμματα όπως το OCRopus,
> που υποστηρίζουν αναγνώριση της διάταξης του κειμένου.

To tesseract μπορεί να χρησιμοποιηθεί ως μία από τις επιλογές για
"line recognizer" στο ocropus. Δηλαδή, το ocropus αφού έχει κάνει
μια φιλότιμη προσπάθεια για να αναγνωρίσει το layout και να
βρει το κείμενο και το reading order δίνει μία-μία τις "γραμμές"
του κειμένου σε μορφή εικόνας στο tesseract (ή στο άλλο δικό
του recognizer) και παίρνει ως έξοδο ας πούμε χαρακτήρες
γιατί είναι κάπως πιο πολύπλοκο.

Η μεγάλη δυσκολία όμως στις μέρες μας είναι περισσότερο στο κομμάτι
του ocropus παρά στο κομμάτι του tesseract (κατά την ταπεινή μου γνώμη).
Γι αυτό το λόγο μάλιστα τα "εμπορικά" προγράμματα όπως το finereader
έχουν μια iterative προσέγγιση και συνδυάζουν την αναγνώριση χαρακτήρων
και layout.

Από εκεί και πέρα ως καθαρά έλληνες χρήστες η συνεισφορά μας καταρχήν
μπορεί να είναι η εκπαίδευση των line recognizers του Ocropus (tesseract
και neural-network-based) στις ελληνικές γραμματοσειρές και glyphs.
Αυτό μάλιστα είχε προταθεί ως ένα από τα projects του Greek Coding Camp 2009
αλλά δυστυχώς δεν παρουσιάστηκε μεγάλη συμμετοχή και ένας άνθρωπος
είναι δύσκολο να τα κάνει όλα :P  (Τουλάχιστον έχω κώδικα πάνω σε python
και pango/cairo/freetype που κάνει render κείμενο και σκέτους χαρακτήρες
από μια μεγάλη ποικιλία ελληνικών γραμματοσειρών ώστε να βοηθήσει στη
γρήγορη εκπαίδευση). Αν κάποιος ενδιαφέρεται να βοηθήσει μπορούμε να
διοργανώσουμε κάτι ad-hoc στα πλαίσια της FOSSCOMM 2011 στην Πάτρα.

> Ως ελληνική κοινότητα ΕΛΛΑΚ, θέλουμε το tesseract3 να είναι όσο το
> δυνατόν καλύτερα εκπαιδευμένο. Μέχρι στιγμής, ο τύπος που έκανε τη
> δουλειά φαίνεται να είναι κάποιος ξένος. Θα ήταν καλό να κάναμε τη
> δουλειά ώστε όλες οι τυπικές ελληνικές γραμματοσειρές να
> αναγνωρίζονται με σαφήνεια.

Συμφωνώ 100%. Σε καμία περίπτωση δεν είπα ότι πρέπει να παραμελούμε
τις ΕΛΛΑΚ προσπάθειες σε κάθε χώρο προς όφελος του proprietary λογισμικού.
Προσωπικά άλλωστε μόνο σε ΕΛΛΑΚ OCR λογισμικό θα με έβλεπα να συνεισφέρω.
Απλά επειδή όσο καλά και να εκπαιδευτούν οι line recognizers του Ocropus
finereader δε θα γίνει, ούτε σε ένα μήνα ούτε σε ένα χρόνο, για προσωρινή λύση
θα πρότεινα την εγκατάσταση του finereader σε virtualbox seamless mode ή
τη βελτίωση του wine ώστε να παίζει το finereader εκεί.

Επίσης, για απλά τυπωμένα κείμενα (χωρίς πολύπλοκο layout, πολλά διαγράμματα
κλπ) το ocropus ήδη είναι χρήσιμο :)  Ιδιαίτερα δε στην περίπτωση που κάποιος
θέλει να σκανάρει ένα βιβλίο και θέλει το κείμενο μόνο και μόνο για λόγους
indexing/search στο παραγόμενο PDF (π.χ., google books)

> Στο χώρο του ΕΛ/ΛΑΚ υπάρχουν πολλά έργα που βλέπουμε ότι μπορούν να
> γίνουν καλύτερα. Αυτό πρέπει να το θεωρούμε ως ευκαιρία για συμμετοχή
> διότι υπάρχει κάτι χρήσιμο να κάνουμε, αντί να τα παρατάμε.

Φυσικά, αλλά πρέπει να είμαστε και ρεαλιστές σχετικά με το πόσο χρόνο/προσπάθεια
απαιτείται για κάθε βελτίωση ώστε να έχουμε καλό "resource allocation".
Γι αυτό είπα ότι το ocropus είναι πολύ καλό ως βάση π.χ., διπλωματικών
(Αναγνώριση πολυτονικού κειμένου, καλύτεροι αλγόριθμοι για layout, καλύτεροι
αλγόριθμοι για αναγνώριση ελληνικού κειμένου με χρήση χαρακτηριστικών
μορφολογίας λέξεων ή/και γραμματικής κλπ)

Π.χ., υπάρχει ήδη ένα master πάνω στην καλύτερη μεταχείριση halftone
εικόνων από το ocropus με αποτέλεσμα τον καλύτερο διαχωρισμό κειμένου/εικόνας
αν θυμάμαι καλά.

> Μπορούμε οι ίδιοι να δοκιμάσουμε και να επιβεβαιώσουμε αν το
> tesseract3 ως μηχανή είναι χρήσιμη, και για τις δουλειές αρκετών είναι
> μια καλή μηχανή OCR.

Σίγουρα είναι χρήσιμο αλλά δυστυχώς όχι αυτή τη στιγμή για το είδος των
use-cases που ο πολύς κόσμος χρησιμοποιεί το finereader (business documents).
Αυτή τη στιγμή όμως υπάρχει μια κινητικότητα στο FOSS OCR (tesseract, ocropus,
cuneiform, gamera) σε σημείο που σε μερικά χρόνια υπάρχει η δυνατότητα να έχουμε
ισοδύναμο ή καλύτερο από τα εμπορικά πακέτα OCR τουλάχιστον σε ότι αφορά τον
"πυρήνα" του συστήματος (αλγόριθμοι αναγνώρισης) αν προσπαθήσουμε αρκετά.

>> Η εκπαίδευση όμως των recognizers του ocropus για ελληνικά είναι κάτι πιο
>> ρεαλιστικό.
>>
>
> Εμείς μπορούμε να εκπαιδεύσουμε μια μηχανή OCR, διότι η εκπαίδευση
> είναι εύκολο πράγμα· δίνεις δοκιμαστικές σελίδες και διορθώνεις το
> αποτέλεσμα που έβγαλε μια μηχανή.

Συμφωνώ και μπορούμε και να βελτιώσουμε την ποιότητα της "εκπαίδευσης"
με λίγη "εξυπνάδα" ως προς τη μέθοδο. Αν κάποιος ενδιαφέρεται όπως είπα
και πιο πάνω μπορούμε να διοργανώσουμε ένα άτυπο event στα πλαίσια
της FOSSCOMM 2011 για να κάνουμε αυτή τη δουλειά. (Ή φυσικά κάποιος
που έχει μπόλικο ελεύθερο χρόνο μπορεί να το κάνει μόνος του και να
το προσφέρει στην κοινότητά μας ως δώρο)

> Για το OCRopus+tesseract3 βλέπουμε ότι έχουμε την Google να
> χρηματοδοτεί το εγχείρημα, και μάλλον αυτό το λογισμικό είναι σε χρήση
> στο Google Docs.
> Το OCRopus+(tesseract3 ή κάτι άλλο) φαίνεται να έχει μέλλον, και εμείς
> μπορούμε να ξεκινήσουμε με την εκπαίδευση της μηχανής στα ελληνικά,
> που είναι εύκολη αρχή.

Έχει μέλλον σίγουρα αλλά μάλλον για τις χρήσεις που θέλει ο φίλος μας
που χρησιμοποιεί το finereader, δεν έχει παρόν :P

Οπότε το καλύτερο είναι να δουλεύει το finereader στο linux ώστε να μη
χρειάζεται κάποιος partition των windows γι αυτή τη δουλειά και παράλληλα
να αναπτύσσουμε ως κοινότητα και τη δική μας εναλλακτική/ανταγωνιστική
λύση για πιο μακροπρόθεσμα.

Παντελής