HTML Unicode (UTF-8) အကိုးအကား
ယူနီကုဒ်လုပ်ငန်းစု
ယူနီကုဒ်လုပ်ငန်းစုသည် ယူနီကုဒ်စံနှုန်းကို ဖော်ဆောင်သည်။ ၎င်းတို့၏ ရည်မှန်းချက်မှာ ရှိပြီးသား စာလုံးအစုံများကို ၎င်း၏ စံယူနီကုဒ်အသွင်ပြောင်းမှုပုံစံ (UTF) ဖြင့် အစားထိုးရန်ဖြစ်သည်။
ယူနီကုဒ်စံနှုန်းသည် အောင်မြင်မှုတစ်ခုဖြစ်လာပြီး HTML၊ XML၊ Java၊ JavaScript၊ E-mail၊ ASP၊ PHP စသည်တို့တွင် အကောင်အထည်ဖော်ဆောင်ရွက်လျက်ရှိသည်။ Unicode စံနှုန်းကို လည်ပတ်မှုစနစ်များစွာနှင့် ခေတ်မီဘရောက်ဆာများအားလုံးတွင်လည်း ပံ့ပိုးပေးထားသည်။
Unicode Consortium သည် ISO၊ W3C နှင့် ECMA ကဲ့သို့သော ထိပ်တန်း စံနှုန်းများ ဖွံ့ဖြိုးတိုးတက်ရေး အဖွဲ့အစည်းများနှင့် ပူးပေါင်းဆောင်ရွက်ပါသည်။
ယူနီကုဒ် အက္ခရာအစုံ
ယူနီကုဒ်ကို အက္ခရာအစုံဖြင့် အကောင်အထည်ဖော်နိုင်သည်။ အသုံးအများဆုံး ကုဒ်နံပါတ်များမှာ UTF-8 နှင့် UTF-16 ဖြစ်သည် ။
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
အကြံပြုချက်- ယူနီကုဒ်၏ ပထမအက္ခရာ 128 လုံး (ASCII နှင့် တစ်ပုံမှတစ်ပုံ သက်ဆိုင်သည့်) ကို ASCII ကဲ့သို့ ဒွိတန်ဖိုးတူ octet တစ်ခုတည်းဖြင့် ကုဒ်လုပ်ထားပြီး မှန်ကန်သော ASCII စာသားကို UTF-8-encoded ယူနီကုဒ်ကိုလည်း မှန်ကန်စေသည်။
HTML 4 သည် UTF-8 ကို ပံ့ပိုးပေးသည်။ HTML 5 သည် UTF-8 နှင့် UTF-16 နှစ်မျိုးလုံးကို ပံ့ပိုးပေးသည်။
HTML5 စံသတ်မှတ်ချက်- ယူနီကုဒ် UTF-8
ISO-8859 တွင် တပ်ဆင်ထားသော ဇာတ်ကောင်များသည် အရွယ်အစား အကန့်အသတ်ရှိပြီး ဘာသာစကားမျိုးစုံသော ပတ်ဝန်းကျင်များတွင် တွဲဖက်အသုံးပြုနိုင်ခြင်းမရှိသောကြောင့် Unicode ပူးပေါင်းအဖွဲ့သည် ယူနီကုဒ်စံနှုန်းကို တီထွင်ခဲ့သည်။
Unicode Standard သည် ကမ္ဘာပေါ်ရှိ စာလုံးများ၊ သတ်ပုံများနှင့် သင်္ကေတများအားလုံးကို (နီးပါး) အကျုံးဝင်ပါသည်။
ယူနီကုဒ်သည် ပလပ်ဖောင်းနှင့် ဘာသာစကားမပါဘဲ စာသားများကို စီမံဆောင်ရွက်ခြင်း၊ သိုလှောင်မှုနှင့် ပို့ဆောင်မှုကို လုပ်ဆောင်ပေးသည်။
HTML-5 တွင် မူရင်းဇာတ်ကောင်ကုဒ်လုပ်ခြင်းမှာ UTF-8 ဖြစ်သည်။
HTML5 ဝဘ်စာမျက်နှာသည် UTF-8 ထက် မတူညီသော စာလုံးအစုံကို အသုံးပြုပါက၊ ၎င်းကို <meta> တဂ်တွင် သတ်မှတ်ထားသင့်သည်-
ဥပမာ
<meta charset="ISO-8859-1">
ယူနီကုဒ်နှင့် UTF-8 ကွာခြားချက်
ယူနီကုဒ်သည် အက္ခရာအစုံ ဖြစ်သည်။ UTF-8 က ကုဒ် နံပါတ်
Unicode သည် ထူးခြားသော ဒဿမ နံပါတ်များ (ကုဒ်အမှတ်များ) ပါသည့် အက္ခရာများစာရင်းဖြစ်သည်။ A=65,B=66,C=67,...။
ဤဒဿမဂဏန်းများစာရင်းသည် string "ဟဲလို" ကိုကိုယ်စားပြုသည်- 104 101 108 108 111
Encoding သည် ဤနံပါတ်များကို binary နံပါတ်များအဖြစ်သို့ ဘာသာပြန်ဆိုပုံဖြစ်ပြီး ကွန်ပျူတာတွင် သိမ်းဆည်းထားရန် ဖြစ်ပါသည်။
UTF-8 ကုဒ်နံပါတ်သည် ဤကဲ့သို့သော "ဟယ်လို" ကို သိမ်းထားမည် (ဒွိစုံ): 01101000 01100101 01101100 01101100 01101111
Encoding သည် နံပါတ်များကို binary သို့ ဘာသာပြန်သည်။ Character sets သည် စာလုံးများကို နံပါတ်များသို့ ဘာသာပြန်သည်။
HTML5 UTF-8 ဇာတ်ကောင်ကုဒ်များ
အောက်တွင် HTML5 မှပံ့ပိုးပေးထားသော UTF-8 စာလုံးကုဒ်အချို့၏စာရင်းကို အောက်တွင်ဖော်ပြထားသည်-
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |