<html> <head> <style></style> </head> <body class='hmmessage'> το εγκατάσταση release τι ακριβώς είναι ? > Date: Fri, 29 Apr 2011 14:17:05 +0300 > Subject: Re: Ubuntu 11.04, είναι εδώ! > From: pktoss@gmail.com > To: simos.lists@googlemail.com > CC: Ubuntu-gr@lists.ubuntu.com > > 2011/4/29 Simos Xenitellis <simos.lists@googlemail.com>: > > 2011/4/29 Pantelis Koukousoulas <pktoss@gmail.com>: > >> 2011/4/29 Simos Xenitellis <simos.lists@googlemail.com>: > >>> 2011/4/29 Βασίλης Παπατσίμπας <vpapatsimpas@gmail.com>: > >>>> Για 2-3 χρόνια κρατούσα το partition των windows για το abbyy finereader > >>>> (ΟCR) και για δημιουργία DVD από *avi με υπότιτλους* χρησιμοποιώντας το > >>>> ConvertxToDvD. > >>>> Το πρώτο [finereader] το ψάχνω ακόμη... [δε δουλεύει καλά μέσω wine] > >>> > >>> Υπάρχει το πρόγραμμα tesseract που δουλεύει και για ελληνικά, > >>> http://forum.ubuntu-gr.org/viewtopic.php?f=9&t=16669 > >> > >> Το tesseract δεν προσφέρει ουσιαστικά τίποτα σε αυτό τον τομέα (η είσοδος που > >> περιμένει είναι γραμμές από χαρακτήρες). > >> > >> Το project με τις μεγαλύτερες ελπίδες για ανταγωνιστικό engine είναι το Ocropus > >> που αναπτύσσεται με τη βοήθεια της Google. > > > > To tesseract3 είναι το «OCR engine» για προγράμματα όπως το OCRopus, > > που υποστηρίζουν αναγνώριση της διάταξης του κειμένου. > > To tesseract μπορεί να χρησιμοποιηθεί ως μία από τις επιλογές για > "line recognizer" στο ocropus. Δηλαδή, το ocropus αφού έχει κάνει > μια φιλότιμη προσπάθεια για να αναγνωρίσει το layout και να > βρει το κείμενο και το reading order δίνει μία-μία τις "γραμμές" > του κειμένου σε μορφή εικόνας στο tesseract (ή στο άλλο δικό > του recognizer) και παίρνει ως έξοδο ας πούμε χαρακτήρες > γιατί είναι κάπως πιο πολύπλοκο. > > Η μεγάλη δυσκολία όμως στις μέρες μας είναι περισσότερο στο κομμάτι > του ocropus παρά στο κομμάτι του tesseract (κατά την ταπεινή μου γνώμη). > Γι αυτό το λόγο μάλιστα τα "εμπορικά" προγράμματα όπως το finereader > έχουν μια iterative προσέγγιση και συνδυάζουν την αναγνώριση χαρακτήρων > και layout. > > Από εκεί και πέρα ως καθαρά έλληνες χρήστες η συνεισφορά μας καταρχήν > μπορεί να είναι η εκπαίδευση των line recognizers του Ocropus (tesseract > και neural-network-based) στις ελληνικές γραμματοσειρές και glyphs. > Αυτό μάλιστα είχε προταθεί ως ένα από τα projects του Greek Coding Camp 2009 > αλλά δυστυχώς δεν παρουσιάστηκε μεγάλη συμμετοχή και ένας άνθρωπος > είναι δύσκολο να τα κάνει όλα :P (Τουλάχιστον έχω κώδικα πάνω σε python > και pango/cairo/freetype που κάνει render κείμενο και σκέτους χαρακτήρες > από μια μεγάλη ποικιλία ελληνικών γραμματοσειρών ώστε να βοηθήσει στη > γρήγορη εκπαίδευση). Αν κάποιος ενδιαφέρεται να βοηθήσει μπορούμε να > διοργανώσουμε κάτι ad-hoc στα πλαίσια της FOSSCOMM 2011 στην Πάτρα. > > > Ως ελληνική κοινότητα ΕΛΛΑΚ, θέλουμε το tesseract3 να είναι όσο το > > δυνατόν καλύτερα εκπαιδευμένο. Μέχρι στιγμής, ο τύπος που έκανε τη > > δουλειά φαίνεται να είναι κάποιος ξένος. Θα ήταν καλό να κάναμε τη > > δουλειά ώστε όλες οι τυπικές ελληνικές γραμματοσειρές να > > αναγνωρίζονται με σαφήνεια. > > Συμφωνώ 100%. Σε καμία περίπτωση δεν είπα ότι πρέπει να παραμελούμε > τις ΕΛΛΑΚ προσπάθειες σε κάθε χώρο προς όφελος του proprietary λογισμικού. > Προσωπικά άλλωστε μόνο σε ΕΛΛΑΚ OCR λογισμικό θα με έβλεπα να συνεισφέρω. > Απλά επειδή όσο καλά και να εκπαιδευτούν οι line recognizers του Ocropus > finereader δε θα γίνει, ούτε σε ένα μήνα ούτε σε ένα χρόνο, για προσωρινή λύση > θα πρότεινα την εγκατάσταση του finereader σε virtualbox seamless mode ή > τη βελτίωση του wine ώστε να παίζει το finereader εκεί. > > Επίσης, για απλά τυπωμένα κείμενα (χωρίς πολύπλοκο layout, πολλά διαγράμματα > κλπ) το ocropus ήδη είναι χρήσιμο :) Ιδιαίτερα δε στην περίπτωση που κάποιος > θέλει να σκανάρει ένα βιβλίο και θέλει το κείμενο μόνο και μόνο για λόγους > indexing/search στο παραγόμενο PDF (π.χ., google books) > > > Στο χώρο του ΕΛ/ΛΑΚ υπάρχουν πολλά έργα που βλέπουμε ότι μπορούν να > > γίνουν καλύτερα. Αυτό πρέπει να το θεωρούμε ως ευκαιρία για συμμετοχή > > διότι υπάρχει κάτι χρήσιμο να κάνουμε, αντί να τα παρατάμε. > > Φυσικά, αλλά πρέπει να είμαστε και ρεαλιστές σχετικά με το πόσο χρόνο/προσπάθεια > απαιτείται για κάθε βελτίωση ώστε να έχουμε καλό "resource allocation". > Γι αυτό είπα ότι το ocropus είναι πολύ καλό ως βάση π.χ., διπλωματικών > (Αναγνώριση πολυτονικού κειμένου, καλύτεροι αλγόριθμοι για layout, καλύτεροι > αλγόριθμοι για αναγνώριση ελληνικού κειμένου με χρήση χαρακτηριστικών > μορφολογίας λέξεων ή/και γραμματικής κλπ) > > Π.χ., υπάρχει ήδη ένα master πάνω στην καλύτερη μεταχείριση halftone > εικόνων από το ocropus με αποτέλεσμα τον καλύτερο διαχωρισμό κειμένου/εικόνας > αν θυμάμαι καλά. > > > Μπορούμε οι ίδιοι να δοκιμάσουμε και να επιβεβαιώσουμε αν το > > tesseract3 ως μηχανή είναι χρήσιμη, και για τις δουλειές αρκετών είναι > > μια καλή μηχανή OCR. > > Σίγουρα είναι χρήσιμο αλλά δυστυχώς όχι αυτή τη στιγμή για το είδος των > use-cases που ο πολύς κόσμος χρησιμοποιεί το finereader (business documents). > Αυτή τη στιγμή όμως υπάρχει μια κινητικότητα στο FOSS OCR (tesseract, ocropus, > cuneiform, gamera) σε σημείο που σε μερικά χρόνια υπάρχει η δυνατότητα να έχουμε > ισοδύναμο ή καλύτερο από τα εμπορικά πακέτα OCR τουλάχιστον σε ότι αφορά τον > "πυρήνα" του συστήματος (αλγόριθμοι αναγνώρισης) αν προσπαθήσουμε αρκετά. > > >> Η εκπαίδευση όμως των recognizers του ocropus για ελληνικά είναι κάτι πιο > >> ρεαλιστικό. > >> > > > > Εμείς μπορούμε να εκπαιδεύσουμε μια μηχανή OCR, διότι η εκπαίδευση > > είναι εύκολο πράγμα· δίνεις δοκιμαστικές σελίδες και διορθώνεις το > > αποτέλεσμα που έβγαλε μια μηχανή. > > Συμφωνώ και μπορούμε και να βελτιώσουμε την ποιότητα της "εκπαίδευσης" > με λίγη "εξυπνάδα" ως προς τη μέθοδο. Αν κάποιος ενδιαφέρεται όπως είπα > και πιο πάνω μπορούμε να διοργανώσουμε ένα άτυπο event στα πλαίσια > της FOSSCOMM 2011 για να κάνουμε αυτή τη δουλειά. (Ή φυσικά κάποιος > που έχει μπόλικο ελεύθερο χρόνο μπορεί να το κάνει μόνος του και να > το προσφέρει στην κοινότητά μας ως δώρο) > > > Για το OCRopus+tesseract3 βλέπουμε ότι έχουμε την Google να > > χρηματοδοτεί το εγχείρημα, και μάλλον αυτό το λογισμικό είναι σε χρήση > > στο Google Docs. > > Το OCRopus+(tesseract3 ή κάτι άλλο) φαίνεται να έχει μέλλον, και εμείς > > μπορούμε να ξεκινήσουμε με την εκπαίδευση της μηχανής στα ελληνικά, > > που είναι εύκολη αρχή. > > Έχει μέλλον σίγουρα αλλά μάλλον για τις χρήσεις που θέλει ο φίλος μας > που χρησιμοποιεί το finereader, δεν έχει παρόν :P > > Οπότε το καλύτερο είναι να δουλεύει το finereader στο linux ώστε να μη > χρειάζεται κάποιος partition των windows γι αυτή τη δουλειά και παράλληλα > να αναπτύσσουμε ως κοινότητα και τη δική μας εναλλακτική/ανταγωνιστική > λύση για πιο μακροπρόθεσμα. > > Παντελής > -- > Ubuntu-gr mailing list > Ubuntu-gr@lists.ubuntu.com > > If you do not want to receive any more messages from the ubuntu-gr mailing list, please follow this link and choose unsubscribe: > https://lists.ubuntu.com/mailman/listinfo/ubuntu-gr </body> </html>