Big5碼與Unicode碼之差異性
- 七月 25th, 2009
由於hugo每天都要在字碼中打滾,自然而然的對各種編碼有較基本的認知,也發現到一般的使用者,或是資訊相關人員其實對字碼的部份也不甚了解,所以在這前提之下讓hugo想把兩者的差異性寫成較簡單的文章,供大家參考。在此文章內將先不論兩者編碼之規範,單純以收錄字數做單一比較。
「何謂Big5」
以下轉載自Wiki
「五大碼」(Big5) 是在1984年,台灣13家廠商製作開發五大中文套裝軟體,由中華民國財團法人資訊工業策進會為五大中文套裝軟體所設計的中文內碼,所以就稱為Big5中文內碼,雖然五大套裝軟體並沒有成功,但隨著採用Big5碼的國喬中文系統及倚天中文系統先後在台灣市場獲得成功,使得Big5碼深遠地影響正體中文電腦內碼,直至今日[2][3]。「五大碼」的英文名稱「Big5」後來被人按英文字序譯回中文,以致現在有「五大碼」和「大五碼」兩個中文名稱。
但因在制定編碼時沒有考量到人名、地名等常用字,所以像是堃、峯、喆、綉等字在以Big5為編碼的系統上是無法顯示的,如早期的Windows98。
「何謂Unicode」
以下轉載自Wiki
Unicode是由於傳統的字元編碼方式的侷限性而產生的,例如 ISO 8859 所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都具有一個共通的問題,即其容許電腦進行雙語環境式的處理(通常使用拉丁字母以及其本地語言),但卻無法同時支援多語言環境式的處理(指可同時處理混合多種語言的情況)。
Unicode試圖將字位(字素,graphemes)與類字位字元加以認定與編碼,而非以不同的字形(glyphs)來加以區分。然而在漢字的個案來看,這樣方式有時會引起一字多形的認定爭議(詳見中日韓統一表意文字主題)。
看上述的解釋其實有點複雜,以較簡單的方式說明則是「Unicode整合了各國不同之語系並給與標準化」,其中當然也包括了正體中文,簡體中文等。
「Big5與Unicode的差異」
接下來有了基本的認知後,應該就可以知道Unicode是一個比較大的字集,因為收錄了各國的字型,但其中的CJK,其中也包含了原本Big5所收納的字數,如下圖所示。

而這些差異字就高達7,399字,這些字也包含了大部份的人名罕字及地址罕字等。簡單講這也就是big5跟unicode的主要差異性。
這是hugo第一次寫關於中文字碼的文章,盡量是以簡單的方式來說明,雖然可能乏味了點,不過如果想更進一步的了解都可以留言給我 ![]()








