Re: Ubuntu 11.04, είναι εδώ!

Pantelis Koukousoulas pktoss at gmail.com
Fri Apr 29 09:20:56 UTC 2011


2011/4/29 Simos Xenitellis <simos.lists at googlemail.com>:
> 2011/4/29 Βασίλης Παπατσίμπας <vpapatsimpas at gmail.com>:
>> Για 2-3 χρόνια κρατούσα το partition των windows για το abbyy finereader
>> (ΟCR) και για δημιουργία DVD από *avi με υπότιτλους* χρησιμοποιώντας το
>> ConvertxToDvD.
>> Το πρώτο [finereader] το ψάχνω ακόμη... [δε δουλεύει καλά  μέσω wine]
>
> Υπάρχει το πρόγραμμα tesseract που δουλεύει και για ελληνικά,
> http://forum.ubuntu-gr.org/viewtopic.php?f=9&t=16669
>
> Υποστηρίζει και «εκπαίδευση» (training), οπότε είναι εφικτό να το
> εκπαιδεύσει κάποιος ώστε να βγάζει αποτέλεσμα με ακόμα καλύτερη
> ακρίβεια (δεν το έχει κάνει ακόμα κάποιος).

Δυστυχώς δε βοηθάει στην πράξη. Αν και τα συστήματα αναγνώρισης γραφής
ονομάζονται "OCR" (Optical Character Recognition), αυτό είναι μόνο για
ιστορικούς
λόγους και πλέον στις μέρες μας το ενδιαφέρον και δύσκολο πρόβλημα είναι η
σωστή αναγνώριση του document layout. Σε αυτό τον τομέα το finereader έχει
κάνει πολύ καλή δουλειά που δυστυχώς δεν έχει ουσιαστικό ανταγωνιστή αυτή
τη στιγμή κατά τη γνώμη μου (χωρίς να είναι και αυτό βέβαια τέλειο, κάθε άλλο).

Το tesseract δεν προσφέρει ουσιαστικά τίποτα σε αυτό τον τομέα (η είσοδος που
περιμένει είναι γραμμές από χαρακτήρες).

Το project με τις μεγαλύτερες ελπίδες για ανταγωνιστικό engine είναι το Ocropus
που αναπτύσσεται με τη βοήθεια της Google. Μπορεί να χρησιμοποιήσει το
tesseract ή κάποιο δικό του line recognizer και έχει και μια πρώτη layout engine
καθώς και σχεδιασμένο format για layout output (hOCR) βασισμένο στην html.

Δυστυχώς και αυτό έχει ακόμα αρκετό δρόμο μπροστά του. Το να δουλέψει
καλά το finereader στο wine είναι μια πιο εφικτή short term λύση (πιστεύω
ότι τα προβλήματα έχουν περισσότερο σχέση με τους μηχανισμούς προστασίας
του finereader παρά με την πιθανή χρήση κάποιου "fancy" χαρακτηριστικού
των windows.

Αυτό που πιθανότατα θα δουλέψει άμεσα είναι η χρήση του finereader σε
Virtualbox (seamless mode).

Το να συμμετέχουμε στην ανάπτυξη του OCRopus θα ήταν πολύ χρήσιμο
αλλά δυστυχώς είναι κάτι που χρειάζεται πολύ χρόνο, έρευνα και πειραματισμό.
(Είναι όμως πολύ καλό θέμα για διπλωματική ή master π.χ., νομίζω ότι η
η σχολή στην Πάτρα ασχολείται περισσότερο με το OCR και ειδικά σε ότι
αφορά την ελληνική γλώσσα, π.χ., πολυτονικό σύστημα)

Η εκπαίδευση όμως των recognizers του ocropus για ελληνικά είναι κάτι πιο
ρεαλιστικό.

>> Το 2ο το έλυσα με τα usb stickάκια..όταν κυκλοφόρησαν dvd player με είσοδο
>> usb....
>>
> Υπάρχει λογισμικό για να φτιάχνεις τέτοια DVD, ωστόσο είναι πολύ
> καλύτερη η λύση με USB στικ, μιας και μπορείς να τα ξαναγράφεις ξανά
> και ξανά.
> Αν κάποιος άλλος ενδιαφέρεται, είναι εφικτό με ένα DVD Player ή και με
> ψηφιακό δέκτη MPEG4 που έχουν είσοδο USB να αναπαράγουν ταινίες, μαζί
> με υπότιτλους. Ανάλογα με τη συσκευή είναι εφικτό να δουλεύουν και τα
> ελληνικά στους υπότιτλους. Οι φθηνές συσκευές θέλουν υπότιτλους με την
> παλιά κωδικοποίηση ISO-8859-7 (ή windows-1253), ενώ οι καλές συσκευές
> (FullHD) λειτουργούν και με αρχεία υποτίτλων σε κωδικοποίηση UTF-8.

Δεν έχω και πολύ μεγάλη εμπειρία στο θέμα καθώς πλέον χρησιμοποιώ
το laptop και την εξωτερική οθόνη / projector ως "home theater", αλλά
το πιο εύκολο πράγμα για να είναι κανείς σίγουρος ότι οι υπότιτλοι θα
δουλεύουν 100% σε οποιαδήποτε συσκευή είναι να τους κάνει embed
στην εικόνα.

π.χ., με mencoder:
http://ubuntuforums.org/showthread.php?t=1155877

(για ελληνικά μπορεί να χρειαστεί να προσθέσεις -subcp iso8859-7)

Γενικά όποιος ασχολείται με video-δουλειές, ο mplayer/mencoder
είναι κάτι που αξίζει να το μάθει. Στο στρατό μετέτρεψα video με
και χωρίς υπότιτλους σε ό,τι φορμά για ό,τι συσκευή μπορεί να
φανταστεί κανείς (κινητά, PSP, τηλεοράσεις κλπ κλπ) χωρίς
καν πρόσβαση στο internet για εγκατάσταση εξειδικευμένων
προγραμμάτων, απλά παίζοντας με τα options του mencoder :)

Παντελής


More information about the Ubuntu-gr mailing list