<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Tahoma
}
--></style>
</head>
<body class='hmmessage'>
το εγκατάσταση release τι ακριβώς είναι ?<br><br><br>> Date: Fri, 29 Apr 2011 14:17:05 +0300<br>> Subject: Re: Ubuntu 11.04, είναι εδώ!<br>> From: pktoss@gmail.com<br>> To: simos.lists@googlemail.com<br>> CC: Ubuntu-gr@lists.ubuntu.com<br>> <br>> 2011/4/29 Simos Xenitellis <simos.lists@googlemail.com>:<br>> > 2011/4/29 Pantelis  Koukousoulas <pktoss@gmail.com>:<br>> >> 2011/4/29 Simos Xenitellis <simos.lists@googlemail.com>:<br>> >>> 2011/4/29 Βασίλης Παπατσίμπας <vpapatsimpas@gmail.com>:<br>> >>>> Για 2-3 χρόνια κρατούσα το partition των windows για το abbyy finereader<br>> >>>> (ΟCR) και για δημιουργία DVD από *avi με υπότιτλους* χρησιμοποιώντας το<br>> >>>> ConvertxToDvD.<br>> >>>> Το πρώτο [finereader] το ψάχνω ακόμη... [δε δουλεύει καλά  μέσω wine]<br>> >>><br>> >>> Υπάρχει το πρόγραμμα tesseract που δουλεύει και για ελληνικά,<br>> >>> http://forum.ubuntu-gr.org/viewtopic.php?f=9&t=16669<br>> >><br>> >> Το tesseract δεν προσφέρει ουσιαστικά τίποτα σε αυτό τον τομέα (η είσοδος που<br>> >> περιμένει είναι γραμμές από χαρακτήρες).<br>> >><br>> >> Το project με τις μεγαλύτερες ελπίδες για ανταγωνιστικό engine είναι το Ocropus<br>> >> που αναπτύσσεται με τη βοήθεια της Google.<br>> ><br>> > To tesseract3 είναι το «OCR engine» για προγράμματα όπως το OCRopus,<br>> > που υποστηρίζουν αναγνώριση της διάταξης του κειμένου.<br>> <br>> To tesseract μπορεί να χρησιμοποιηθεί ως μία από τις επιλογές για<br>> "line recognizer" στο ocropus. Δηλαδή, το ocropus αφού έχει κάνει<br>> μια φιλότιμη προσπάθεια για να αναγνωρίσει το layout και να<br>> βρει το κείμενο και το reading order δίνει μία-μία τις "γραμμές"<br>> του κειμένου σε μορφή εικόνας στο tesseract (ή στο άλλο δικό<br>> του recognizer) και παίρνει ως έξοδο ας πούμε χαρακτήρες<br>> γιατί είναι κάπως πιο πολύπλοκο.<br>> <br>> Η μεγάλη δυσκολία όμως στις μέρες μας είναι περισσότερο στο κομμάτι<br>> του ocropus παρά στο κομμάτι του tesseract (κατά την ταπεινή μου γνώμη).<br>> Γι αυτό το λόγο μάλιστα τα "εμπορικά" προγράμματα όπως το finereader<br>> έχουν μια iterative προσέγγιση και συνδυάζουν την αναγνώριση χαρακτήρων<br>> και layout.<br>> <br>> Από εκεί και πέρα ως καθαρά έλληνες χρήστες η συνεισφορά μας καταρχήν<br>> μπορεί να είναι η εκπαίδευση των line recognizers του Ocropus (tesseract<br>> και neural-network-based) στις ελληνικές γραμματοσειρές και glyphs.<br>> Αυτό μάλιστα είχε προταθεί ως ένα από τα projects του Greek Coding Camp 2009<br>> αλλά δυστυχώς δεν παρουσιάστηκε μεγάλη συμμετοχή και ένας άνθρωπος<br>> είναι δύσκολο να τα κάνει όλα :P  (Τουλάχιστον έχω κώδικα πάνω σε python<br>> και pango/cairo/freetype που κάνει render κείμενο και σκέτους χαρακτήρες<br>> από μια μεγάλη ποικιλία ελληνικών γραμματοσειρών ώστε να βοηθήσει στη<br>> γρήγορη εκπαίδευση). Αν κάποιος ενδιαφέρεται να βοηθήσει μπορούμε να<br>> διοργανώσουμε κάτι ad-hoc στα πλαίσια της FOSSCOMM 2011 στην Πάτρα.<br>> <br>> > Ως ελληνική κοινότητα ΕΛΛΑΚ, θέλουμε το tesseract3 να είναι όσο το<br>> > δυνατόν καλύτερα εκπαιδευμένο. Μέχρι στιγμής, ο τύπος που έκανε τη<br>> > δουλειά φαίνεται να είναι κάποιος ξένος. Θα ήταν καλό να κάναμε τη<br>> > δουλειά ώστε όλες οι τυπικές ελληνικές γραμματοσειρές να<br>> > αναγνωρίζονται με σαφήνεια.<br>> <br>> Συμφωνώ 100%. Σε καμία περίπτωση δεν είπα ότι πρέπει να παραμελούμε<br>> τις ΕΛΛΑΚ προσπάθειες σε κάθε χώρο προς όφελος του proprietary λογισμικού.<br>> Προσωπικά άλλωστε μόνο σε ΕΛΛΑΚ OCR λογισμικό θα με έβλεπα να συνεισφέρω.<br>> Απλά επειδή όσο καλά και να εκπαιδευτούν οι line recognizers του Ocropus<br>> finereader δε θα γίνει, ούτε σε ένα μήνα ούτε σε ένα χρόνο, για προσωρινή λύση<br>> θα πρότεινα την εγκατάσταση του finereader σε virtualbox seamless mode ή<br>> τη βελτίωση του wine ώστε να παίζει το finereader εκεί.<br>> <br>> Επίσης, για απλά τυπωμένα κείμενα (χωρίς πολύπλοκο layout, πολλά διαγράμματα<br>> κλπ) το ocropus ήδη είναι χρήσιμο :)  Ιδιαίτερα δε στην περίπτωση που κάποιος<br>> θέλει να σκανάρει ένα βιβλίο και θέλει το κείμενο μόνο και μόνο για λόγους<br>> indexing/search στο παραγόμενο PDF (π.χ., google books)<br>> <br>> > Στο χώρο του ΕΛ/ΛΑΚ υπάρχουν πολλά έργα που βλέπουμε ότι μπορούν να<br>> > γίνουν καλύτερα. Αυτό πρέπει να το θεωρούμε ως ευκαιρία για συμμετοχή<br>> > διότι υπάρχει κάτι χρήσιμο να κάνουμε, αντί να τα παρατάμε.<br>> <br>> Φυσικά, αλλά πρέπει να είμαστε και ρεαλιστές σχετικά με το πόσο χρόνο/προσπάθεια<br>> απαιτείται για κάθε βελτίωση ώστε να έχουμε καλό "resource allocation".<br>> Γι αυτό είπα ότι το ocropus είναι πολύ καλό ως βάση π.χ., διπλωματικών<br>> (Αναγνώριση πολυτονικού κειμένου, καλύτεροι αλγόριθμοι για layout, καλύτεροι<br>> αλγόριθμοι για αναγνώριση ελληνικού κειμένου με χρήση χαρακτηριστικών<br>> μορφολογίας λέξεων ή/και γραμματικής κλπ)<br>> <br>> Π.χ., υπάρχει ήδη ένα master πάνω στην καλύτερη μεταχείριση halftone<br>> εικόνων από το ocropus με αποτέλεσμα τον καλύτερο διαχωρισμό κειμένου/εικόνας<br>> αν θυμάμαι καλά.<br>> <br>> > Μπορούμε οι ίδιοι να δοκιμάσουμε και να επιβεβαιώσουμε αν το<br>> > tesseract3 ως μηχανή είναι χρήσιμη, και για τις δουλειές αρκετών είναι<br>> > μια καλή μηχανή OCR.<br>> <br>> Σίγουρα είναι χρήσιμο αλλά δυστυχώς όχι αυτή τη στιγμή για το είδος των<br>> use-cases που ο πολύς κόσμος χρησιμοποιεί το finereader (business documents).<br>> Αυτή τη στιγμή όμως υπάρχει μια κινητικότητα στο FOSS OCR (tesseract, ocropus,<br>> cuneiform, gamera) σε σημείο που σε μερικά χρόνια υπάρχει η δυνατότητα να έχουμε<br>> ισοδύναμο ή καλύτερο από τα εμπορικά πακέτα OCR τουλάχιστον σε ότι αφορά τον<br>> "πυρήνα" του συστήματος (αλγόριθμοι αναγνώρισης) αν προσπαθήσουμε αρκετά.<br>> <br>> >> Η εκπαίδευση όμως των recognizers του ocropus για ελληνικά είναι κάτι πιο<br>> >> ρεαλιστικό.<br>> >><br>> ><br>> > Εμείς μπορούμε να εκπαιδεύσουμε μια μηχανή OCR, διότι η εκπαίδευση<br>> > είναι εύκολο πράγμα· δίνεις δοκιμαστικές σελίδες και διορθώνεις το<br>> > αποτέλεσμα που έβγαλε μια μηχανή.<br>> <br>> Συμφωνώ και μπορούμε και να βελτιώσουμε την ποιότητα της "εκπαίδευσης"<br>> με λίγη "εξυπνάδα" ως προς τη μέθοδο. Αν κάποιος ενδιαφέρεται όπως είπα<br>> και πιο πάνω μπορούμε να διοργανώσουμε ένα άτυπο event στα πλαίσια<br>> της FOSSCOMM 2011 για να κάνουμε αυτή τη δουλειά. (Ή φυσικά κάποιος<br>> που έχει μπόλικο ελεύθερο χρόνο μπορεί να το κάνει μόνος του και να<br>> το προσφέρει στην κοινότητά μας ως δώρο)<br>> <br>> > Για το OCRopus+tesseract3 βλέπουμε ότι έχουμε την Google να<br>> > χρηματοδοτεί το εγχείρημα, και μάλλον αυτό το λογισμικό είναι σε χρήση<br>> > στο Google Docs.<br>> > Το OCRopus+(tesseract3 ή κάτι άλλο) φαίνεται να έχει μέλλον, και εμείς<br>> > μπορούμε να ξεκινήσουμε με την εκπαίδευση της μηχανής στα ελληνικά,<br>> > που είναι εύκολη αρχή.<br>> <br>> Έχει μέλλον σίγουρα αλλά μάλλον για τις χρήσεις που θέλει ο φίλος μας<br>> που χρησιμοποιεί το finereader, δεν έχει παρόν :P<br>> <br>> Οπότε το καλύτερο είναι να δουλεύει το finereader στο linux ώστε να μη<br>> χρειάζεται κάποιος partition των windows γι αυτή τη δουλειά και παράλληλα<br>> να αναπτύσσουμε ως κοινότητα και τη δική μας εναλλακτική/ανταγωνιστική<br>> λύση για πιο μακροπρόθεσμα.<br>> <br>> Παντελής<br>> -- <br>> Ubuntu-gr mailing list<br>> Ubuntu-gr@lists.ubuntu.com<br>> <br>> If you do not want to receive any more messages from the ubuntu-gr mailing list, please follow this link and choose unsubscribe:<br>> https://lists.ubuntu.com/mailman/listinfo/ubuntu-gr<br>                                      </body>
</html>