View Single Post
  #1  
Old 06-04-05, 08:27 PM
thiruarul thiruarul is offline
*Reactivated on 5/12/10
 
யுனிகோட் (Unicode) - ஒரு சிறு அறிமுகம்

உன் கோடு, என் கோடு என்று போட்டியிட்டு பல 'கோடு'[கள்] தாண்டி இப்போது "யுனிகோடி"ற்கு வந்திருக்கிறோம். ஏற்கெனவே இருப்பது போதாதென்று இது வேறா என்று நம்மில் பலர் எண்ணக் கூடும். இன்று நாம் சந்தித்து வரும் பெரும் சிக்கல், எந்த குறியீட்டு முறையை இணையத் தளங்கள் அமைப்பதற்கும் மின்னஞ்சல் பரிமாற்றங்களைச் செய்வதற்கும் கையாள்வது என்பதுதான். இணையப் பக்கம் எழுதுவோர் அவரவர் பயன்படுத்தும் விதத்தில் தாம் கண்ட வசதிகளின் அடிப்படையில் குறிப்பிட்ட குறியீட்டைச் சிறந்தது என்று வாதிப்பர். மேலும் முன்பே சில அறியப்பட்ட குறியீட்டுத் தரங்கள் புழக்கத்தில் இருந்தாலும் சில மின்னிதழ்கள் தேவையில்லாமல் ஒழுங்கற்ற குறியீடுகளை பயன்படுத்துகின்றன. எனவே பெயருக்கு ஆக்கங்கள் மின் வடிவில் இருந்தும் அவ்வாக்கங்கள் பயனுள்ளவையாயிருந்தால்கூட பிறருடன் பரிமாறிக்கொள்ளவோ அல்லது தொகுத்து வைக்கவோ இயலுவதில்லை. தமிழில் மின் பதிப்புக்கள் போதிய அளவில் இல்லாத நிலையில் இம்மாதிரியான குழறுபடிகள் வேறு.

Unicode - முதலில் அதன் பெயரே அதன் அடிப்படையை உணர்த்துவதாக அமைந்துள்ளது. UNI[que]CODE - ஓர் அலாதியான தனி குறியீட்டு முறை. [Universal coding என்று எடுத்துக் கொண்டாலும் தப்பில்லைதான்!]. இதைப் பற்றி நம்மிடையே இப்போதுதான் கவனம் திரும்பியிருந்தாலும் மற்ற மொழி எழுத்துருக்கள் முன்பே புழக்கதில் இருக்கின்றன. இந்த யுனிகோடு எழுத்துக் குறியீட்டிற்குச் சொந்தக் காரர்கள் யார்? Unicode Consortium எனப்படும் ஓர் அமைப்புத்தான். இந்த அமைப்பால் உலகில் எழுத்து வழக்கில் உள்ள மொழிகள் எல்லாவற்றிற்கும் எழுத்துரு குறியீடுகள் வரையறுக்கப் பட்டுள்ளன. நம் தமிழ் மொழிக்கும் அவ்வாறான வரையரை செய்யப் பட்டுள்ளது. மேலும் குறியீட்டுப் பகுதியில் போதுமான இடமும் ஒதுக்கப் பட்டுள்ளது. இந்த யுனிகோடு முறையைப் பாவிப்பதால் கிட்டும் மற்றுமோர் அனுகூலம் என்னவென்றால் பன்மொழி உள்ளடக்கிய ஒரே எழுத்துருவை [font] பாவிக்க உதவுவது. இன்று நம்மிடையே இருக்கும் TAB, TSCII குறியீட்டு முறைகள் இரண்டு மொழிகளை [ஆங்கிலம், தமிழ்] மட்டுமே உள்ளடக்கக் கூடியன. ஆனால் யுனிகோடு முறையில் எல்லா மொழி எழுத்துக்களும் ஒரே வகையில் வரையறுக்கப் பட்டிருப்பதால் அத்துனை மொழிகளின் எழுத்துகளையும் ஒரே எழுதுரு கோப்பில் [font file] அடக்கி விடலாம். இது பல மொழிகளை ஒரே நேரத்தில் கையாளுவோருக்கு பெரிதும் உதவும்.

சாதரண பயனரைப் பொறுத்தவரையில் முரசு அஞ்சல் அல்லது எகலப்பை போன்றவற்றைப் பயன்படுத்தி யுனிகோடில் தட்டச்சு செய்யும்போது மேலோட்டமாக எந்த வித்தியாசத்தையும் அறியப் போவதில்லை. ஆனால் யுனிகோட் குறியீடு முறையும் அதன் முழு இயங்கு முறையும் அலாதியானது. ஒவ்வொரு எழுத்தும், குறியும் அதற்குரிய யுனிகோட் எண்ணைப் பெற்றிருக்கும். எடுத்துக்காட்டாக 'ர்' எனப்படுவதில் "ர" வுக்கு ஒரு குறியீட்டு எண்ணும் அதன் மேலுள்ள புள்ளிக்கு ஒரு குறியீட்டு எண்ணுமாக இருக்கும். "க்" என்பது "க" என்ற உயிர்மெய்யும் மேலே குறிப்பிட்ட புள்ளியும் சேர்ந்ததாகும். இதை வேறு வகையில் சொல்லப் போனால் நாம் கையால் எழுதும்போது எவ்விதமாக எழுதுவோமோ அம்முறையில்தான் யுனிகோடு அமைப்பும் இருக்கிறது. "த்" என்ற மெய் எழுத்தை எழுத "த" என்ற உயிர்மெய்யெழுத்தை எழுதி அதன்மேல் ஒரு புள்ளியை வைக்கிறோமல்லவா அதே மாதிரி. அதைப் போலவே எல்லா எழுத்துக்களின் இகர, ஈகார, உகர, ஊகார வடிவங்குக்கு அவைகளுக்குரிய யுனிகோடு குறீடுகளை இட வேண்டும். சரி, "கு"வை நாம் என்று எழுவதிலேயே? ஆனால் யுனிகோடு பக்கங்களில் "கு" என்றே சரியாகக் காண முடிகிறதே? ஆம், எப்படி சரியாக காட்ட வேண்டும் விபரப் பட்டியல் அந்த எழுத்துரு கோப்பிலேயே அடங்கி இருக்கிறது. மேலும் அப்பட்டியலில் உள்ளபடி சரியாக எழுத்துகளைக் காட்ட உதவும் ஒரு சிறப்புக் கோப்பு [unicode script processor - usp10.dll] உங்கள் கணினியிலும் இருக்கிறது. உங்களில் யாரேனும் யுனிகோடு பக்கங்களை சரியாக இல்லாமல் மேலே கண்டதுபோல் குழறுபடியாக ["கு" வை ஆக] காண நேர்தால் ups10.dll பழுதடைந்திருக்கலாம் [அல்லது இல்லாதிருக்கலாம்]. அதுவும் இல்லயென்றால் அந்தப் பக்கங்களில் கையாளப்பட்டிருக்கும் யுனிகோடு எழுத்துருவில் மேற்கண்ட விபரப் பட்டியல் இல்லாதிருக்கலாம்.

Open type font என்ற முறை எழுத்துருவில் கையாளப்பட்டவுடன் இந்த வித்தைகளைச் செய்வது எளிதாகிறது. எழுத்துரு உலகில் முன்னோடியான அடோப் நிறுவனமும் மைக்ரோசாப்ட் நிறுவனமும் கூடி ஒத்துக்கொண்ட முறைதான் இது. நம் தமிழாவது பரவாயில்லை. அரபு, மற்றும் வட இந்தியாவில் பேசப் படும் பல மொழிகளில் எழுதும்போது ஏற்படும் வேறுபாடுகள் மிக அதிகம். ஒரே எழுத்து சொல்லின் தொடக்கதில் ஒரு விதமாகவும் நடுவில் ஒரு விதமாகவும், சொல்லின் இறுதியில் வேறு விதமாகவும் இருக்கும். நாம் ஓர் எழுத்திற்கு ஒரு குறியீடுதான் என்றறிவோம். மூன்று வெவ்வேறான வடிவங்களை இடத்திற்கு தக்கவாறு எப்படி தானாகவே அமைத்துக் கொள்ளச் செய்வது? இந்தச் சிக்கலுக்கு தீர்வளித்து திரையில் சரியான எழுத்துக்களை காண வைப்பதுதான் இந்த முறை.

இறுதியாக யுனிகோடினால் என்ன பயன் என்று தெரிய வேண்டுமல்லவா?

முதலாவதாக, தமிழுக்கென்று தனி இடம். இதுவரை கையாளப்படும் TAM, TAB, TSCII போன்ற குறியீடுகள் மற்ற வேற்று மொழி எழுத்துருக்களில் இருக்கும் வடிவங்களை களைந்து விட்டு தமிழ் வரி வடிவங்களை உட்கொண்டதாக இருக்கின்றன. 256 கட்டங்களில்தான் விளையாட்டை வைத்துக் கொள்ள முடியும். அதில் ஒரு குறியீட்டு முறை "அ" வை 140 வது கட்டத்தில் புகுத்தியிருந்தால் வேறொரு குறியீட்டு முறை "ன" வை புகுத்தி இருக்கும். ஆனால் யுனிகோடில் அப்படி இல்லை. எண் 2946 இலிருந்து எண் 3071 [0B80 - 0BFF Hex] வரை தமிழுக்காக மட்டும்தான். நீங்களோ அல்லது ஓர் ஆப்பிரிக்காக்காரனோ அல்லது ஒரு சீனாக்காரனோ 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது தமிழ் "அ" தான். இவ்வாறாக ஒரே குறியீடு மட்டும் உலகெங்கும் பாவிக்கப்பட்டால் செய்தி பரிமாற்றத்தில் குழப்பமேற்பட வழியில்லை. தேடு தளங்களில் தமிழில் தேடும்போது என்ன தேடுகிறீர்களோ அது சரியாகக் கிடைக்கும்.

யுனிகோடு எல்லா இடங்களிலும் இப்போது இல்லாவிட்டாலும் இனி அதுதான் எதிர்காலம். win95 வைத்திருப்போர் யுனிகோடில் காண இயலாது என்றாலும் அது முடிந்துவிட்ட கதை. குறைந்த பட்சம் Win98 இல் யுனிகோடு இணையத் தளங்களைப் பார்க்க இயலும். இப்பொழுது XP ஆட்கொண்டு இருப்பதால் இணையத் தளங்களை மெல்ல யுனிகோடிற்கு மாற்றுவது உத்தமம். சில உலாவிகள், இயக்கு தளங்கள் ஆகியவற்றில் சிக்கல்கள் இருப்பது உண்மைதான் என்றாலும் இது உலகலாவியது என்பதால் விரைவில் சிக்கல் தீர்ந்தே ஆக வேண்டும்.மைக்ரோசாப்ட் "லதா" என்ற யுனிகோடு எழுத்துருவை மட்டுமே தருகிறது. என்றாலும் புழக்கத்திலிருக்கும் எழுத்துருக்களுக்குள்ளும் யுனிகோடு குறியீடுகளை உட்புகுத்த முடியும். அந்தந்த எழுத்துரு தயாரிப்பளர்களை அனுகினால் செய்து கொடுப்பார்கள். அந்தவகையில் முரசு எழுத்துருக்கள் யுனிகோடு குறியீடுகளுடன் வருகின்றன. [TSCu.... என்பதில் u என்பது யுனிகோடு உள்ளடக்கியது என்பதைக் குறிக்கிறது].

கணினியுலகில் 'யாதும் ஊரே யாவரும் கேளிர்' என ஆக வேண்டுமானால் யுனிகோடிற்கு தாவுவதற்கு தயாராக வேண்டும்.
நன்றி: உமர்/எழில்நிலா

யுனிகோட் பற்றி மேலும் தெரிந்துகொள்ள விரும்புபவர்களுக்கான சுட்டிக்கு இங்கே சொடுக்கவும்.

Last edited by Kanchanadasan; 02-05-05 at 06:30 PM.