Re: Ubuntu 11.04, είναι εδώ!

Fri Apr 29 10:33:11 UTC 2011

2011/4/29 Pantelis  Koukousoulas <pktoss at gmail.com>:
> 2011/4/29 Simos Xenitellis <simos.lists at googlemail.com>:
>> 2011/4/29 Βασίλης Παπατσίμπας <vpapatsimpas at gmail.com>:
>>> Για 2-3 χρόνια κρατούσα το partition των windows για το abbyy finereader
>>> (ΟCR) και για δημιουργία DVD από *avi με υπότιτλους* χρησιμοποιώντας το
>>> ConvertxToDvD.
>>> Το πρώτο [finereader] το ψάχνω ακόμη... [δε δουλεύει καλά  μέσω wine]
>>
>> Υπάρχει το πρόγραμμα tesseract που δουλεύει και για ελληνικά,
>> http://forum.ubuntu-gr.org/viewtopic.php?f=9&t=16669
>>
>> Υποστηρίζει και «εκπαίδευση» (training), οπότε είναι εφικτό να το
>> εκπαιδεύσει κάποιος ώστε να βγάζει αποτέλεσμα με ακόμα καλύτερη
>> ακρίβεια (δεν το έχει κάνει ακόμα κάποιος).
>
> Δυστυχώς δε βοηθάει στην πράξη. Αν και τα συστήματα αναγνώρισης γραφής
> ονομάζονται "OCR" (Optical Character Recognition), αυτό είναι μόνο για
> ιστορικούς
> λόγους και πλέον στις μέρες μας το ενδιαφέρον και δύσκολο πρόβλημα είναι η
> σωστή αναγνώριση του document layout. Σε αυτό τον τομέα το finereader έχει
> κάνει πολύ καλή δουλειά που δυστυχώς δεν έχει ουσιαστικό ανταγωνιστή αυτή
> τη στιγμή κατά τη γνώμη μου (χωρίς να είναι και αυτό βέβαια τέλειο, κάθε άλλο).
>
> Το tesseract δεν προσφέρει ουσιαστικά τίποτα σε αυτό τον τομέα (η είσοδος που
> περιμένει είναι γραμμές από χαρακτήρες).
>
> Το project με τις μεγαλύτερες ελπίδες για ανταγωνιστικό engine είναι το Ocropus
> που αναπτύσσεται με τη βοήθεια της Google. Μπορεί να χρησιμοποιήσει το
> tesseract ή κάποιο δικό του line recognizer και έχει και μια πρώτη layout engine
> καθώς και σχεδιασμένο format για layout output (hOCR) βασισμένο στην html.
>

To tesseract3 είναι το «OCR engine» για προγράμματα όπως το OCRopus,
που υποστηρίζουν αναγνώριση της διάταξης του κειμένου.
Ως ελληνική κοινότητα ΕΛΛΑΚ, θέλουμε το tesseract3 να είναι όσο το
δυνατόν καλύτερα εκπαιδευμένο. Μέχρι στιγμής, ο τύπος που έκανε τη
δουλειά φαίνεται να είναι κάποιος ξένος. Θα ήταν καλό να κάναμε τη
δουλειά ώστε όλες οι τυπικές ελληνικές γραμματοσειρές να
αναγνωρίζονται με σαφήνεια.

Στο χώρο του ΕΛ/ΛΑΚ υπάρχουν πολλά έργα που βλέπουμε ότι μπορούν να
γίνουν καλύτερα. Αυτό πρέπει να το θεωρούμε ως ευκαιρία για συμμετοχή
διότι υπάρχει κάτι χρήσιμο να κάνουμε, αντί να τα παρατάμε.

Μπορούμε οι ίδιοι να δοκιμάσουμε και να επιβεβαιώσουμε αν το
tesseract3 ως μηχανή είναι χρήσιμη, και για τις δουλειές αρκετών είναι
μια καλή μηχανή OCR.

> Δυστυχώς και αυτό έχει ακόμα αρκετό δρόμο μπροστά του. Το να δουλέψει
> καλά το finereader στο wine είναι μια πιο εφικτή short term λύση (πιστεύω
> ότι τα προβλήματα έχουν περισσότερο σχέση με τους μηχανισμούς προστασίας
> του finereader παρά με την πιθανή χρήση κάποιου "fancy" χαρακτηριστικού
> των windows.
>
> Αυτό που πιθανότατα θα δουλέψει άμεσα είναι η χρήση του finereader σε
> Virtualbox (seamless mode).
>
> Το να συμμετέχουμε στην ανάπτυξη του OCRopus θα ήταν πολύ χρήσιμο
> αλλά δυστυχώς είναι κάτι που χρειάζεται πολύ χρόνο, έρευνα και πειραματισμό.
> (Είναι όμως πολύ καλό θέμα για διπλωματική ή master π.χ., νομίζω ότι η
> η σχολή στην Πάτρα ασχολείται περισσότερο με το OCR και ειδικά σε ότι
> αφορά την ελληνική γλώσσα, π.χ., πολυτονικό σύστημα)
>
> Η εκπαίδευση όμως των recognizers του ocropus για ελληνικά είναι κάτι πιο
> ρεαλιστικό.
>

Εμείς μπορούμε να εκπαιδεύσουμε μια μηχανή OCR, διότι η εκπαίδευση
είναι εύκολο πράγμα· δίνεις δοκιμαστικές σελίδες και διορθώνεις το
αποτέλεσμα που έβγαλε μια μηχανή.

Για το OCRopus+tesseract3 βλέπουμε ότι έχουμε την Google να
χρηματοδοτεί το εγχείρημα, και μάλλον αυτό το λογισμικό είναι σε χρήση
στο Google Docs.
Το OCRopus+(tesseract3 ή κάτι άλλο) φαίνεται να έχει μέλλον, και εμείς
μπορούμε να ξεκινήσουμε με την εκπαίδευση της μηχανής στα ελληνικά,
που είναι εύκολη αρχή.

Σίμος