Sunday, March 02, 2008

பொன்விழி தமிழ் ஒளிசார் எழுத்துணரி க்னூ/லினக்சில்! -Tamil OCR on GNU/Linux

நீண்டகாலத்துக்கு முன்பே வெளிவந்ததொன்றாக இருந்தபோதும் நானறிந்தவரை தற்போதும் ஓரளவு வேலை செய்யக்கூடிய நிலையிலிருக்கும் ஒரேயொரு ஒளிசார் எழுத்துணரி (OCR) பொன்விழி தான்.

தமிழ் விக்கிபீடியாவில் தமிழ்க் கணிமையின் வரலாற்றினைப் பதிவு செய்யுமுகமாகக் காலக்கோடொன்றினை உருவாக்கும் பணிகளுக்காக இணையத்தில் தகவல்தேடிக்கொண்டிருந்தபோது. இந்தப்பொன்விழியை மறுபடி ஒருமுறை தற்செயலாகச் சந்திக்க நேர்ந்தது.

பொன்விழி ஆரம்பத்தில் நிறையப்பணத்துக்கு விற்கப்படதாக அறிகிறோம். பின்னர் சிடாக் மென்பொருள் தொகுப்பு இறுவட்டில் இது இலவசமாக வழங்கப்பட்டது.

தற்போதும் இது மூடிய மூல மென்பொருளே. இதன் உரிம ஒப்பந்தம் குறித்து நான் பயன்படுத்தும் பதிப்பில் எந்தத்தகவலும் இல்லை.


ஆனால் எரிச்சல் என்னவென்றால் இம்மென்பொருள் வின்டோசுக்கு மட்டுமே.

சரி வந்தால் வா போனால் போ என்று வைன் (WINE) பயன்படுத்தி இதனை எனது க்னூ/லினக்சில் நிறுவிப்பார்க்கலாம் என்று முயன்றபோது, எந்தப்பிரச்சினையும் இல்லாமல் அழகாக நிறுவிப் பயன்படுத்தக்கூடியதாக இருந்தது.

ஆனால் சற்றே வேகம் குறைவு போல் தோன்றுகிறது. வின்டோசில் இதனை நான் பயன்படுத்திப்பார்த்ததில்லை என்பதால் வேகத்தை ஒப்பிட முடியவில்லை.

வைன் கொண்டு பொன்விழியை நிறுவியபின் அதனோடு விளையாடிய அனுபவம் சுவையானது..


1.

xsane மென்பொருளைப்பயன்படுத்தி என்னிடமிருந்த புத்தகங்கள் இரண்டின் பக்கங்களை scan செய்துகொண்டேன்.

கவனிக்க : greyscale, 300 dpi



2.

Gimp மென்பொருளைப்பயன்படுத்தி அதனை 1 பிட் கறுப்பு வெள்ளைப்படமாக மாற்றி bmp வடிவில் சேமித்துக்கொண்டேன்.



3.

பொன்விழியை இயக்கி, அதன் பட்டியல் பட்டையில் ocr என்பதன்கீழ் recognize என்பதை தெரிவு செய்தேன்.
படத்திலுள்ள எழுத்தின் வடிவம் நேரானதா சரிந்ததா என்று கேட்டது. சரிந்தது என்று சொன்னேன். (அநேகமாக புத்தகங்கள் சரிந்த எழுத்தையே கொண்டிருக்கின்றன)



4.

புதிதாகத் திறந்த சாளரத்தில் என்னுடைய bmp படத்தினை திறந்து recognize என்பதைச்சொடுக்கியதும் நினைத்ததை விட வேகமாக படத்தின் எழுத்துக்களை பிரித்துணர்ந்து கொண்டது.


5.

பிரித்துணரப்பட்ட உரைப்பகுதியை rtf வடிவில் சேமித்துக்கொண்டேன்.
சேமித்த கோப்பினை பின்னர் abiword இல் திறந்து TAM_Maduram எழுத்துருவுக்கு மாற்றினேன். உரைப்பகுதி அழகாகத்தெரிந்தது. ஆனால் ^ குறியீடுகள் குழப்பம் விளைவித்தன.
find&replace கட்டளையைப்பயன்படுத்தி அந்தக்குறியீடுகளை ஒரேசொடுக்கலில் நீக்கிக்கொண்டேன்.


7.

உரைப்பகுதியை நகலெடுத்து சுரதாவின் பொங்குதமிழ் செயலியைப்பயன்படுத்தி ஒருங்குறிக்கு மாற்றிக்கொண்டேன்.

----

மேலே படங்களில் காட்டப்பட்ட உரைப்பகுதியை விடத் துல்லியமாக எழுத்துணரப்பட்ட கவிதைப்புத்தகம் ஒன்றின் பக்கத்தைக்காட்டும் படங்கள் இதோ.


----

எழுத்துணர்ந்து ஒருங்குறிக்கு மாற்றியபின் கிடைத்த வெளியீடுகள் இவை. மூலப் படங்களும் தந்திருக்கிறேன். ஒப்பிட்டுப்பாருங்கள். (எந்தவிதமான திருத்தங்களோ மாற்றங்களோ செய்யப்படவில்லை)


இறந்து போன மனைவியுடன் கணவணையும் சேர்த்து எரிக்கும்
கிட்டம் இரு வழிகளில் ஆபத்தானது, ஒன்று அவன் ஆண் என்ற
காரணத்தாலேயே அவ்வாறு செய்ய முடியாது. இரண்டாவதாக,
அவ்வாறு செய்தால் சாதி, வலுவான ஒரு உயிரை இழக்க தேரும்.
இவற்றை வீட்ட'£ல்', அவனுக்கு முடிவு கட்டும் இரண்டு இணக்க
மான வழிகள் உள்ளன. நான் இணக்கமான வழிகள் என்வ்'
குறிப்பிடுவதற்குக் காரணம். குழுவிற்கு அந்த ஆண் ஒரு பெரும்
சொத்தாக இகுப்பது தான்.


எதிரி முறுவலுடன்வந்தான்


மக்கள்முறுவலுடன்வரவேற்றனர்
மண்அங்குலம்அங்குலமாகப் பறிபோனது
எதிரிபுகழுரைகளுடன்வந்தான்
மக்கள்மகிழ்வுடன்வரவேற்றனர்
மண்ஏக்கர்ஏக்கராகப் பறிபோனது
எதிரி பரிசுகளோடு வந்தான்


மக்கள்நன்றியுடன்வரவேற்றனர்
மண்சதுரமைல்களாகப் பறிபோனது
மக்கள்விழிப்புற்றபோதுஎதிரி
முனறப்புடன்கையில்ஆயுதங்களுடன்
கவசவாகனமேறி வந்தான்


மக்கள்ஆயுதத்தரித்த போது
மண்ணைஅபகரித்தவனால்


மண்ணைஆளஇயலவில்லை
எதிரி போர்நிறுத்தம் பற்றிப் பேசினான்
அமைதி பற்றியும்


ஆயுதக்களைவு பற்றியும் பேசினான்
மக்கள்போரைநிறுத்திஅமைதி பற்றிப்பேச


ஆயுதங்களைக்களைந்த பின்
மண்மீண்டும் '


அங்குலம்அங்குலமாக


ஏக்கர்ஏக்கராகச்


ணுரமைல்களாப் பறிபோனது
ஷி-யின்இனிய சொற்கள்
வலியஆயுதங்கலிலுங் கொடியன

----


எழுத்துணரும் துல்லியத்தைக்கூட்டுவதற்கான வழிமுறைகள் பல உண்டு.
நூலில் பயன்படுத்தப்பட்டுள்ள எழுத்துரு துல்லியத்தைத் தீர்மானிக்கும் மிக முக்கியமான காரணியாகப்படுகிறது.


----

பொன்விழி தொடர்பான மேலதிக தகவல்களைப்பெறப் பின்வரும் தொடுப்புக்களைப் பார்வையிடுங்கள்.


http://thoughtsintamil.blogspot.com/2005/04/blog-post_111389400657312187.html

http://www.bhashaindia.com/Patrons/Review/TaSWTamilOCR.aspx?lang=ta

http://www.tamiloviam.com/html/Nettan31.Asp

http://www.tamilvu.org/tsdf/html/cwswoap1.htm

http://www.ildc.gov.in/GIST/htm/ocr_spell.htm

9 comments:

said...

அருமையான விளக்கம், படங்களுடன்! நன்றி.

பொன்விழி தயாரிப்பாளர் பேரா. கிருட்டிணமூர்த்தியை அணுகி நிரலைப் பெறமுடியுமா என்று லினுக்ஸ் ஆர்வலர்கள் முயலவேண்டும். பின்னர் அதைத் திறமூல மென்கலன் ஆக்கி மேம்படுத்தலாம். நேரடியாக, யூனிக்கோடு குறியீட்டில் தமிழ் உணரச் செய்தும், பிழைகள் கண்டு களையவும் செய்யுங்கள்.

வாழ்த்துக்களுடன்,
நா. கணேசன்

said...

நன்றி

said...

தமிழ் ஓசிஆர் சாஃப்ட்வேர் இருப்பது இப்பொழுது தான் அறிய முடிகிறது.

விரிவான விளக்கத்திற்கு நன்றி.

said...

அருமை மயூரன்.
விரைவில் லினக்ஸ் மாறவேண்டும் போல இருக்கின்றது~!!

said...

நீங்கள் குறிப்பிட்டது போல் இயக்கினேன். சரியாக வஐகின்றது. அறிமுகப்படுத்தியதற்கு நன்றி.

said...

கடந்த மூன்று நான்கு மாதமாக லினக்ஸ் தான் பாவிக்கிறேன்.

கூகிள், யாகூ ஆடியோ அரட்டை வசதி எப்படி பெறுவது? தெரிந்தவர்கள் சொல்லுங்களேன்.

நன்றி

said...

//கடந்த மூன்று நான்கு மாதமாக லினக்ஸ் தான் பாவிக்கிறேன்.

கூகிள், யாகூ ஆடியோ அரட்டை வசதி எப்படி பெறுவது? தெரிந்தவர்கள் சொல்லுங்களேன்.//

மாஹிர்

இது வரை நானும் லினக்ஸ் தளங்களில் கூகிள், யாகூ வழி ஒலியரட்டை செய்த்தில்லை. இப்போது ஒரு கூகிள் தேடுதல் செய்த பொது கண்டறிந்தவைகள்:

1) யாகூக்கு "pY! Voice Chat" என்பதற்கு "Gyach Enhancement" எனபதை சேர்த்து பாவிக்க வேண்டுமாம். பார்க்க:

http://freshmeat.net/projects/pyvoicechat/

http://www.phrozensmoke.com/projects/pyvoicechat/

2) Google talk க்கு "libjingle" என்றொன்று உள்ளதாம். அதைப் பயன்படுத்தி SuSe 9.3 (மிகப்பழையது) இல் கூகிள் ஒலியரட்டை செய்ய முடிவதாக இப்பதிவில் உள்ளது:
http://nileshbansal.blogspot.com/2006/01/google-talk-voice-chat-on-suse.html

அவ்வாறு மூல மென்பொருட்டகளில் இருந்து compile செய்து நிறுவதல் மிக்கடினமாகவே இருக்கும்.

"Tapioca" என்ற அரட்டை செயலி எல்லா distro களிலும் நிறுவக்கூடியதாக இருக்கும் எனத்தெரிகிறது. பார்க்க:

http://etrunko.blogspot.com/2006/03/want-googletalk-alternative-for-linux.html

http://tapioca-voip.sourceforge.net/wiki/index.php/Tapioca

அவற்றில் இரண்டாவதில் நிறுவல் வழிகாகட்டிக்கு தொடுப்பும் உள்ளது. முதலாவதில் பின்வரும் கூற்றுக்களை அவதானிக்கவும்:

**Quote begin**
# What's new?

With this new release, Tapioca has become the first free Linux client that includes full support to Google Talk voice and P2P interoperability library, the libjingle. All you have to do is to sign in with your Gmail username and password using tapiocaui client. It will automatically retrieve your contact list, and then you will be able to start a text/voice chat with any of your contacts.
**Quote end**

செயது பார்க்க வேண்டும்

கா. சேது

said...

மாஹிர்,

குரல்வழி உரையாடலுக்கு இப்போதைக்கு Skype தான் இலகுவான வழியாக இருக்கிறது. நான் அதனையே பயன்படுத்துகிறேன்.


இதையும் பாருங்கள்

http://tamilgnu.blogspot.com/2006/09/webcam_06.html

said...

படத்துடன் கூடிய விளக்கம்
அருமை
நன்றி மயூரன்

அனலைதிரு