[Ubuntu-BD] Bengali Machine Translation Engine

9el lenin at phpxperts.net
Mon Feb 2 07:22:35 GMT 2009


আপনার মতো ইতিবাচক মনোভাবই আশা করছিলাম সবার কাছ থেকে। ছোট-খাট প্রকল্পের পক্ষে
সবাই। কিন্তু আমি আগেই বলেছি লোকালাইজেশন আর মেশিন ট্রান্সলেশন কিন্তু এক নয়।
আপনারাও তা জানেন। আমাদের এই গ্রুপেই অনেকে আছেন যারা এমন লোকালাইজেশন করেন এবং
করছেন। সুতরাং বিপক্ষে যুক্তি না দিয়ে আসু কী কী দুর্বলতা আছে, কী কী উপায়ে
সামনে আগানো সম্ভব চিন্তা করি। কাজ ভাগ ভাগ করে নেই সবাই, আরো সবাইকে উদ্বুদ্ধ
করি।

মাসুম ভাই যে পয়েন্টগুলো তুলেছেন এগুলো এবং আরো কি কি পয়েন্ট হতে পারে তা নিয়ে
আমরা আলোচনা শুরু করতে পারি।

গুগলকে প্রভাবিত করার জন্য একটি দ্বিভাষিক বিশাল শব্দভাণ্ডার সহ তাদের অবহিত
করতে হবে। কাজটি কঠিন নয়! আমার আগের মেইলে তার লিঙ্কগুলো দিয়েছি।
http://lenin9l.wordpress.com/2009/01/08/%e0%a6%85%e0%a6%ad%e0%a6%bf%e0%a6%a7%e0%a6%be%e0%a6%a8-%e0%a6%ac%e0%a6%be%e0%a6%82%e0%a6%b2%e0%a6%be/
এখানে কতোগুলি বাংলা অভিধানের লিঙ্ক দিয়েছি সবাই মিলে এই অভিধানগুলো থেকে একটি
সমন্বিত শব্দভাণ্ডার তৈরি করতে পারি অনায়াসেই। *গুগলকে জানাতে হবে আমাদের বাংলা
শব্দের এই এই ইংরেজি প্রতিশব্দ সহ এই হলো লিস্ট এবার যোগ করো আমাদের ভাষা।*

প্রথমে অনেক ভুল হবে... সমস্যা কি? ভুল ছাড়া কিছুই নেই। যে সবচেয়ে কম ভুল করে
সে মহামানব। কিন্তু সবাই ভুল করে।

On Mon, Feb 2, 2009 at 1:03 PM, Masum Masum <a.h.m.masum at gmail.com> wrote:

> নিঃসন্দেহে এটি একটি চমৎকার উদ্যোগ। আমরা সবাই যেহেতু এব্যপারে একমত তাই
> এটা সফল হবে কি হবে না সেই তর্ক বাদ দিয়ে আসুন কাজে নেমে পড়ি। যদি এবার
> সফল না ও হতে পারি ভবিষ্যতে আবার চেষ্টা করা যাবে। তখন এখনকার করা
> কাজগুলো অবশ্যই সাহায্য করবে।  একাজের জন্য অনেক মানুষের সাহায্য লাগবে
> এটা ঠিক। তাই এ প্রজেক্টে প্রচারনার পাশাপাশি যে কাজগুলো আমরা এখনই শুরু
> করতে পারি সেগুলো শুরু করা যাক।  যেমনঃ
> ১. অনুবাদক তৈরীর জন্য প্রায় সকল English শব্দের শব্দার্থের DATABASE
> প্রয়োজন হবে। এধরনের কাজ যেহেতু আগেই শুরু হয়েছে আমাদের একটা দল সেটাকে
> আরো সমৃদ্ধ করার কাজ করতে পারে।
>
> ২. শুধু technical জ্ঞান দিয়ে এ ধরনের কাজ করা যাবেনা। এজন্য যথেষ্ট
> ভাষাগত জ্ঞান প্রয়োজন। বাংলা ভাষার ব্যকরণকে কি কি ধরনের নিয়মের মধ্যে
> (Alogarithm) ফেলা যায় সে জন্য একটা দল কাজ করতে পারে। প্রয়োজনে বিভিন্ন
> বিশ্ববিদ্যালয় / বাংলা একাডেমীর সাহায্য চাওয়া যেতে পারে। Simplified
> Chinese এর মতো বাংলার কোন পরিবর্তন যুক্তিযুক্ত হবে কিনা সেটাও গবেষনা
> করা যেতে পারে।
>
> ৩. Google Translation কে Standard ধরে ওদের Engine কিভাবে এক্ষেত্রে কাজ
> করবে সেটা বের করার জন্য একটা দল হতে পারে। আর আমরা সবাই যেহেতু
> Technical ব্যপারে সমান পারদর্শী নই তাই Technical ব্যপারগুলোকে একটু সহজ
> ভাষায় Explain করে দিতে হবে যাতে সবার একটা ধারনা থাকে কোনপথে আগানো
> উচিত।
>
> ৪. Indian Language এর Structure যেহেতু অনেকটা একইরকম তাই ওরা এই লাইনে
> কি কাজ করছে সেটা সমন্বয়ের জন্য একটা দল হতে পারে।
>
> ৫. আর সরকারীভাবে এধরনের কাজের জন্য পৃষ্ঠপোষকতা পাওয়া যায় কিনা সে
> ব্যপারে চেষ্টা করা যেতে পারে।
>
> ৬. আপনি নিজেই ঠিক করুন কোন দলের মাধ্যমে অংশগ্রহন করতে পারবেন। যেকোন
> একটা দলে না থেকে যখন যে অংশে সম্ভব সাহায্য করার চেষ্টা করুন।
>
> ৭. সর্বোপরি সবদলের অগ্রগতি Monitor করে সেগুলো সমন্বয় করা এবং Program এ
> অন্তর্ভূক্তির জন্য একটি দল হবে যাতে একই কাজ একাধিকবার না হয়ে যায়।
>
> আমার Idea দিলাম। আপনাদের নতুন কিছু থাকলে Add করুন। তবে তর্কের পাশাপাশি
> কাজ শুরু করাটা এক্ষেত্রে জরুরী। ধন্যবাদ।
>
> On 2/2/09, 9el <lenin at phpxperts.net> wrote:
> > Please visit this page
> > http://www.google.com/intl/en/help/faq_translation.html
> >
> > http://www.google.com/support/contact/?translate=1 <<< "please let us
> know
> > link"
> >
> > If we just contribute on it just by gathering a large number of Bangla <>
> > English words its a Giant leap.... please just refrain from thinking
> > pessimistically.
> >
> > http://groups.google.com/group/google-translate  Discussion group on
> > Translations.
> >
> >
> >
> >
> >
> >
> > On Sat, Jan 31, 2009 at 10:16 PM, 9el <lenin at phpxperts.net> wrote:
> >
> >> I am in fact joining the project of Anubadok by Golam Mortuza Hossain(
> >> http://anubadok.sourceforge.net/index.htm). I am learning the
> technology.
> >> And as a CSE student I should this out, what do you think? Not everyone
> >> came
> >> in this world knowing everything.
> >>
> >> And what I got in my little brain is:
> >> 1. Informing everyone who could contribute in this.
> >> 2. Reaching donors like ADB and UNDP to obtain funds for this.(Its huge
> so
> >> needs lots of funding to settle it under one roof)
> >> 3. I feel all the past theses have to be taken into account. All the
> >> research papers related to machine translator need to be gathered,
> listed
> >> and indexed.
> >> 4. Need to call for more researches to obtain the clear path to
> accomplish
> >> the task. Can be carried out by the different faculties in the
> >> Universities.
> >> Students+Teachers of Bangla, Linguistics, Computer Science can help on
> >> these
> >> research.
> >> 5. More thoughts can come from you...
> >>
> >>
> >>
> >>
> >> On Sat, Jan 31, 2009 at 9:39 PM, Ashiqur Rahman Angel
> >> <angel at linux.org.bd>wrote:
> >>
> >>> Great Lenin Vai. I don´t have any idea about a Machine Translation
> >>> Engine,
> >>> but looks like you have. So why don´t start planning about this
> project?
> >>> Open a thread and tell us about your plan. Rest of us will glad to help
> >>> you
> >>> with this.
> >>>
> >>>
> >>> On Sat, Jan 31, 2009 at 4:42 PM, 9el <lenin at phpxperts.net> wrote:
> >>>
> >>> > For these sort of projects UNDP provides aids I guess.
> >>> >
> >>> > @Shabab Mustafa : Instead of getting frustrated, we need to reach
> >>> everyone.
> >>> > Not everyone in these lists represent whole bangladesh/Bangalis. So,
> we
> >>> > must
> >>> > reach everyone. And in doing so we shall find the best guys to work
> >>> with.
> >>> >
> >>> >
> >>> > On Sat, Jan 31, 2009 at 2:44 PM, Shabab Mustafa <
> >>> shabab.mustafa at gmail.com
> >>> > >wrote:
> >>> >
> >>> > > Yes. That is one of the live examples that Jamil bhai gave. I was
> >>> trying
> >>> > to
> >>> > > point out these kind of crisis situations that we already have
> >>> observed
> >>> > in
> >>> > > some OS projects. I think, efficient project management is more
> >>> important
> >>> > > and comes first for potential contributor hunting and keep them
> alive
> >>> to
> >>> > do
> >>> > > research, study, design work plan etc etc. That was and is my point
> >>> > > of
> >>> > > view.
> >>> > >
> >>> > >
> >>> > > And I am having at a cautious stance because our past history says,
> >>> what
> >>> > > ever heats up fast, cools down faster.
> >>> > >
> >>> > >
> >>> > >
> >>> > > On Sat, Jan 31, 2009 at 1:50 PM, Jamil Ahmed <itsjamil at gmail.com>
> >>> wrote:
> >>> > >
> >>> > > > Friends,
> >>> > > >
> >>> > > > Sorry for late response. I think we don't know what is out there
> >>> > > > already. IIRC we have already mailed to different mailing lists
> >>> about
> >>> > > > ankur's english to bengali dictionary and machine translator
> >>> project.
> >>> > > > Very few people showed interest to work actively on it. Probably
> we
> >>> > > > could not reach the potential contributors yet! :)
> >>> > > >
> >>> > > > Anyway, you can check the url below. Golam Mortuza Hossainm
> >>> [gmhossain
> >>> > > > at gmail dot com] is leading the project. If you are interested
> to
> >>> > > > work/study you can mail him directly.
> >>> > > >
> >>> > > > http://anubadok.sourceforge.net/index.htm
> >>> > > >
> >>> > > > Cheers,
> >>> > > > -Jamil
> >>> > > >
> >>> > > >
> >>> > > > 2009/1/31 9el <lenin at phpxperts.net>:
> >>> > > > > Thats what my point is. There's no reason to be afraid thinking
> >>> that
> >>> > > > > Automatic/Machine translation gonna be real hard job to
> >>> accomplish.
> >>> > And
> >>> > > > > there's no saying Bangali people are worthless. And this is one
> >>> > > > > of
> >>> > the
> >>> > > > main
> >>> > > > > tasks Bangali people should do.
> >>> > > > >
> >>> > > > > Yes you may go like, "WHAT IS EVERYBODY'S TASK IS NOBODY'S
> TASK".
> >>> We
> >>> > > just
> >>> > > > > need a plan. Bangali nation maybe a little slow learner. But
> >>> everyone
> >>> > > > > learns.
> >>> > > > >
> >>> > > > > Bangla being the most honored languages being the only language
> >>> > > > > to
> >>> > have
> >>> > > > > martyrs. 21st February being regarded as the International
> >>> > Mothertongue
> >>> > > > Day
> >>> > > > > are enough reasons to plead for this task to start this work as
> >>> > > > immediately
> >>> > > > > as possible. There can be no reason saying its too early to
> >>> > > > > start!
> >>> > What
> >>> > > > we
> >>> > > > > lack? point them together!
> >>> > > > > What are our plus points? point them together!
> >>> > > > >
> >>> > > > > Be positive and contribute your positive thoughts related to
> this
> >>> to
> >>> > > > > everywhere and encourage, motivate all sorts of people for
> this.
> >>> This
> >>> > > > wont
> >>> > > > > require 150 million Bangladeshi to accomplish the task. Take
> >>> examples
> >>> > > of
> >>> > > > > other successful such works. Do comparative study. Its a doable
> >>> task!
> >>> > > > >
> >>> > > > > And localization is nothing like machine translation at all.
> >>> > > > > Localization/Internationalization is allotting the proper
> phrases
> >>> for
> >>> > > > preset
> >>> > > > > phrases in English or other starter languages. And machine
> >>> > translation
> >>> > > is
> >>> > > > > not a final task as well. If you use Google Translate you'll
> see
> >>> that
> >>> > > > they
> >>> > > > > take your opinion on every translation made by the engine.
> >>> > > > >
> >>> > > > >
> >>> > > > >
> >>> > > > > On Sat, Jan 31, 2009 at 3:14 AM, tanjir <orko_147 at yahoo.com>
> >>> wrote:
> >>> > > > >
> >>> > > > >> I somewhat agree with Shabab about the complexity of the
> >>> > > > >> project.
> >>> > Ast
> >>> > > > the
> >>> > > > >> same time as Lenin vaiya is saying I also think we need to
> >>> > > > >> start.
> >>> As
> >>> > > it
> >>> > > > is
> >>> > > > >> not a test, and there is no harm in trying, we can definitely
> >>> start.
> >>> > > > There
> >>> > > > >> might be failures, but hey! success never comes so easily!
> >>> > > > >> After I saw the debate, I did a 15 minute research to find out
> >>> how
> >>> > > > really
> >>> > > > >> this thing works. Most probably all of you are talking about
> >>> Machine
> >>> > > > >> Translation. Yahoo or Altavista's translation engine is called
> >>> > Systran
> >>> > > > which
> >>> > > > >> won't be very effective in translating Bengali (even though
> they
> >>> > claim
> >>> > > > to
> >>> > > > >> support Hindi). Another recent approach which is called
> >>> Statistical
> >>> > > > Machine
> >>> > > > >> Translation (Google Translator) will solve the problems of
> >>> > translating
> >>> > > > from
> >>> > > > >> rice to "chal" or "dhan" depending on the use and other issues
> >>> > > (phrases,
> >>> > > > >> proverbs, structural problems and so on).
> >>> > > > >> OpenLogos or Apertium are the open source Machine Translation
> >>> (not
> >>> > > > >> statistical) projects available with source code (as usual).
> >>> Those
> >>> > who
> >>> > > > are
> >>> > > > >> interested can start from downloading the source codes and see
> >>> how
> >>> > > they
> >>> > > > are
> >>> > > > >> working for other languages.
> >>> > > > >> I am not sure how many of you have access to IEEE and ACM
> >>> > > > >> digital
> >>> > > > >> libraries. I found thousands of articles and journals on this
> >>> topic.
> >>> > > >  Also
> >>> > > > >> there is a nice website with tons of information:
> >>> > > > http://www.statmt.org/So I think instead of fighting on this
> topic,
> >>> if
> >>> > > we
> >>> > > > can start researching
> >>> > > > >> and organizing ourselves to start working, then it will give
> us
> >>> more
> >>> > > > >> jack-fruit (or mango- whatever you like) or we will end up
> being
> >>> > > > >> another-jack-asses or jack-cows or jack monkeys. Don't know if
> >>> > > > >> it
> >>> > > > helped;
> >>> > > > >> just my 2 poisha.
> >>> > > > >>
> >>> > > > >> -----
> >>> > > > >>
> >>> > > > >> tanjir
> >>> > > > >>
> >>> > > > >> visit http://www.tanjir.net
> >>> > > > >>
> >>> > > > >> --- On Fri, 1/30/09, Shabab Mustafa <shabab.mustafa at gmail.com
> >
> >>> > wrote:
> >>> > > > >> From: Shabab Mustafa <shabab.mustafa at gmail.com>
> >>> > > > >> Subject: Re: [Ubuntu-BD] [ot] digg like
> >>> > > > >> To: "Ubuntu Bangladesh" <ubuntu-bd at lists.ubuntu.com>
> >>> > > > >> Received: Friday, January 30, 2009, 3:40 PM
> >>> > > > >>
> >>> > > > >> >
> >>> > > > >> > আপনার কথায় মনে হচ্ছে
> >>> > > > >> সর্বস্তরের বাঙালি এতো
> >>> > > > >> বৃহদায়তন প্রজেক্ট শুরু করার
> >>> > > > >> মতো
> >>> > > > >> > পরিপক্ক নয়। এটা উবুন্তু
> >>> > > > >> বাংলাদেশ বা স্বেচ্ছাসেবকদের
> >>> > > > >> প্রতি আহবান নয়। এটা
> >>> > > > >> > কারো
> >>> > > > >> > একার কাজ নয়। একার পক্ষে
> >>> > > > >> সম্ভবও নয়। ১২ বছরের শিশুরা
> >>> > > > >> অংশগ্রহণ করতে মানা নেই।
> >>> > > > >> > সব পর্যায়ের সবাইকেই কীভাবে
> >>> > > > >> এগুনো যায় ভাবতে হবে।
> >>> > > > >> >
> >>> > > > >> > আর যদি মনে করেন না এরা তো
> >>> > > > >> পাঠানদের মতো পরাটা খায়না, তাই
> >>> > > > >> পেস বোলিং সম্ভব নয়।
> >>> > > > >> > তাহলে আলু পরাটা খেয়ে বাংলা
> >>> > > > >> অনুবাদের উপায় শেখার
> >>> > > > >> প্রশিক্ষণ নিতে পারে সবাই।
> >>> > > > >> > কাদের কাছে নেবে বলুন তো?
> >>> > > > >> আংরেজ? জার্মান? রুশ?
> >>> > > > >>
> >>> > > > >>
> >>> > > > >> ভাইজান, আমার ধারণা আমরা একই
> >>> > > > >> রাস্তায় হাঁটছি না। এখানে করতে
> >>> > > > >> পারবে কি পারবে না
> >>> > > > >> সে তর্ক কোথা থেকে আসছে? আবারও
> >>> > > > >> বলছি আমার কথার মূল পয়েন্টা
> >>> > > > >> হচ্ছে আগে আমাদের
> >>> > > > >> কিছু ছোট-মাঝারি মানের
> >>> > > > >> প্রজেক্ট চালিয়ে অভিজ্ঞতা
> >>> > > > >> সঞ্চয় করে নিয়ে প্রস্তুত হয়ে
> >>> > > > >> তারপর বড় কাজে হাত দেয়া দরকার।
> >>> > > > >>
> >>> > > > >> পেস বোলিং তো অনেকেই করে।
> >>> > > > >> তাদের মধ্যে থেকে কয়জন
> >>> > > > >> ম্যাকগ্রা, ওয়াসিম, ব্রেট লি
> >>> > > > >> বের হয়? আর আপনার কি ধারণা এরা
> >>> > > > >> বাংলা সিনেমার মত রাতে ঘুমিয়ে
> >>> > > > >> ছিল আর সকালে উঠেই
> >>> > > > >> দেখেছে দুনিয়া সেরা পেস বোলার
> >>> > > > >> হয়ে গেছে?
> >>> > > > >>
> >>> > > > >> আবার পরোটা না খেলেও যেমন পেস
> >>> > > > >> বোলার হওয়া যায় তেমনি পরোটা
> >>> > > > >> খানেওয়ালা হলেই পেস
> >>> > > > >> বোলার হয় না।
> >>> > > > >> --
> >>> > > > >> Ubuntu Bangladesh mailing list
> >>> > > > >> ubuntu-bd at lists.ubuntu.com
> >>> > > > >> https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>> > > > >>
> >>> > > > >>
> >>> > > > >>
> >>> > > > >>
> >>> > >  __________________________________________________________________
> >>> > > > >> Looking for the perfect gift? Give the gift of Flickr!
> >>> > > > >>
> >>> > > > >> http://www.flickr.com/gift/
> >>> > > > >> --
> >>> > > > >> Ubuntu Bangladesh mailing list
> >>> > > > >> ubuntu-bd at lists.ubuntu.com
> >>> > > > >> https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>> > > > >>
> >>> > > > > --
> >>> > > > > Ubuntu Bangladesh mailing list
> >>> > > > > ubuntu-bd at lists.ubuntu.com
> >>> > > > > https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>> > > > >
> >>> > > > --
> >>> > > > Ubuntu Bangladesh mailing list
> >>> > > > ubuntu-bd at lists.ubuntu.com
> >>> > > > https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>> > > >
> >>> > >
> >>> > >
> >>> > >
> >>> > > --
> >>> > > বাংলায় লিখুন, বাংলায় পড়ুন..
> >>> > > WRITE IN BANGLA, READ IN BANGLA, VISIT http://omicronlab.com
> >>> > > --
> >>> > > Ubuntu Bangladesh mailing list
> >>> > > ubuntu-bd at lists.ubuntu.com
> >>> > > https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>> > >
> >>> > --
> >>> > Ubuntu Bangladesh mailing list
> >>> > ubuntu-bd at lists.ubuntu.com
> >>> > https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>> >
> >>>
> >>>
> >>>
> >>> --
> >>> Angel
> >>> GPG key: 0x34001F46
> >>> Bangladesh Linux Users Alliance
> >>> Fedora Ambassador Bangladesh
> >>> http://fedoraproject.org/wiki/User:Angel
> >>>
> >>> Fedora -- Freedom² and rapid innovation
> >>> --
> >>> Ubuntu Bangladesh mailing list
> >>> ubuntu-bd at lists.ubuntu.com
> >>> https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >>>
> >>
> >>
> > --
> > Ubuntu Bangladesh mailing list
> > ubuntu-bd at lists.ubuntu.com
> > https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
> >
> --
> Ubuntu Bangladesh mailing list
> ubuntu-bd at lists.ubuntu.com
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-bd
>


More information about the ubuntu-bd mailing list