<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>[ THE VOiCE ] &#187; 外字</title>
	<atom:link href="http://take-ez.com/tag/gaiji/feed" rel="self" type="application/rss+xml" />
	<link>http://take-ez.com</link>
	<description></description>
	<lastBuildDate>Mon, 06 Feb 2012 13:28:11 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
	<atom:link rel='hub' href='http://take-ez.com/?pushpress=hub'/>
		<item>
		<title>Big5碼與Unicode碼之差異性</title>
		<link>http://take-ez.com/big5-unicode.html</link>
		<comments>http://take-ez.com/big5-unicode.html#comments</comments>
		<pubDate>Sat, 25 Jul 2009 03:09:16 +0000</pubDate>
		<dc:creator>hugo5688</dc:creator>
				<category><![CDATA[電腦兩三事]]></category>
		<category><![CDATA[外字]]></category>
		<category><![CDATA[字元編碼]]></category>
		<category><![CDATA[實作筆記]]></category>

		<guid isPermaLink="false">http://take-ez.com/?p=354</guid>
		<description><![CDATA[由於hugo每天都要在字碼中打滾，自然而然的對各種編碼有較基本的認知，也發現到一般的使用者，或是資訊相關人員其實對字碼的部份也不甚了解，所以在這前提之下讓hugo想把兩者的差異性寫成較簡單的文章，供大家參考。在此文章內將先不論兩者編碼之規範，單純以收錄字數做單一比較。]]></description>
			<content:encoded><![CDATA[<p>由於hugo每天都要在字碼中打滾，自然而然的對各種編碼有較基本的認知，也發現到一般的使用者，或是資訊相關人員其實對字碼的部份也不甚了解，所以在這前提之下讓hugo想把兩者的差異性寫成較簡單的文章，供大家參考。在此文章內將先不論兩者編碼之規範，單純以收錄字數做單一比較。</p>
<p><span style="color: #000080;"><strong>「何謂Big5」</strong></span></p>
<blockquote><p style="text-align: right;">以下轉載自<a href="http://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC" target="_blank">Wiki</a></p>
<p style="text-align: left;">「五大碼」<span lang="en" xml:lang="en">(Big5)</span> 是在<a title="1984年" href="http://zh.wikipedia.org/wiki/1984%E5%B9%B4">1984年</a>，<a title="台灣" href="http://zh.wikipedia.org/wiki/%E5%8F%B0%E7%81%A3">台灣</a>13家廠商製作開發<a title="五大中文套裝軟體" href="http://zh.wikipedia.org/wiki/%E4%BA%94%E5%A4%A7%E4%B8%AD%E6%96%87%E5%A5%97%E8%A3%9D%E8%BB%9F%E9%AB%94">五大中文套裝軟體</a>，由中華民國<a title="資訊工業策進會" href="http://zh.wikipedia.org/wiki/%E8%B3%87%E8%A8%8A%E5%B7%A5%E6%A5%AD%E7%AD%96%E9%80%B2%E6%9C%83">財團法人資訊工業策進會</a>為五大中文套裝軟體所設計的中文內碼，所以就稱為Big5中文內碼，雖然五大套裝軟體並沒有成功，但隨著採用Big5碼的國喬中文系統及<a title="倚天中文系統" href="http://zh.wikipedia.org/wiki/%E5%80%9A%E5%A4%A9%E4%B8%AD%E6%96%87%E7%B3%BB%E7%B5%B1">倚天中文系統</a>先後在台灣市場獲得成功，使得Big5碼深遠地影響正體中文電腦<a title="內碼" href="http://zh.wikipedia.org/wiki/%E5%85%A7%E7%A2%BC">內碼</a>，直至今日<sup id="_ref-1" class="reference"><a href="http://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC#_note-1">[2]</a></sup><sup id="_ref-2" class="reference"><a href="http://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC#_note-2">[3]</a></sup>。「五大碼」的英文名稱「<span lang="en" xml:lang="en">Big5</span>」後來被人按英文字序譯回中文，以致現在有「五大碼」和「大五碼」兩個中文名稱。</p>
</blockquote>
<p>但因在制定編碼時沒有考量到人名、地名等常用字，所以像是堃、峯、喆、綉等字在以Big5為編碼的系統上是無法顯示的，如早期的Windows98。</p>
<p><strong><span style="color: #000080;">「何謂Unicode」</span></strong></p>
<blockquote><p style="text-align: right;">以下轉載自<a href="http://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC" target="_blank">Wiki</a></p>
<p>Unicode是由於傳統的<a title="字元編碼" href="http://zh.wikipedia.org/w/index.php?title=%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81&amp;variant=zh-tw">字元編碼</a>方式的侷限性而產生的，例如 <a title="ISO/IEC 8859" href="http://zh.wikipedia.org/w/index.php?title=ISO/IEC_8859&amp;variant=zh-tw">ISO 8859</a> 所定義的字元雖然在不同的國家中廣泛地使用，可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都具有一個共通的問題，即其容許電腦進行雙語環境式的處理（通常使用<a title="拉丁字母" href="http://zh.wikipedia.org/w/index.php?title=%E6%8B%89%E4%B8%81%E5%AD%97%E6%AF%8D&amp;variant=zh-tw">拉丁字母</a>以及其本地語言），但卻無法同時支援多語言環境式的處理（指可同時處理混合多種語言的情況）。</p>
<p>Unicode試圖將<a title="字位" href="http://zh.wikipedia.org/w/index.php?title=%E5%AD%97%E4%BD%8D&amp;variant=zh-tw">字位</a>（字素，graphemes）與類字位字元加以認定與編碼，而非以不同的<a title="字形" href="http://zh.wikipedia.org/w/index.php?title=%E5%AD%97%E5%BD%A2&amp;variant=zh-tw">字形</a>（glyphs）來加以區分。然而在<a title="漢字" href="http://zh.wikipedia.org/w/index.php?title=%E6%B1%89%E5%AD%97&amp;variant=zh-tw">漢字</a>的個案來看，這樣方式有時會引起一字多形的認定爭議（詳見<a title="中日韓統一表意文字" href="http://zh.wikipedia.org/w/index.php?title=%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97&amp;variant=zh-tw">中日韓統一表意文字</a>主題）。</p>
</blockquote>
<p>看上述的解釋其實有點複雜，以較簡單的方式說明則是「Unicode整合了各國不同之語系並給與標準化」，其中當然也包括了正體中文，簡體中文等。</p>
<p><span style="color: #000080;"><strong>「Big5與Unicode的差異」</strong></span></p>
<p>接下來有了基本的認知後，應該就可以知道Unicode是一個比較大的字集，因為收錄了各國的字型，但其中的CJK，其中也包含了原本Big5所收納的字數，如下圖所示。</p>
<p><img src="http://i659.photobucket.com/albums/uu314/hugo5688/u-b.png" alt="說明" width="215" height="216" /></p>
<p>而這些差異字就高達<span style="color: #ff0000;">7,399</span>字，這些字也包含了大部份的人名罕字及地址罕字等。簡單講這也就是big5跟unicode的主要差異性。</p>
<p>這是hugo第一次寫關於中文字碼的文章，盡量是以簡單的方式來說明，雖然可能乏味了點，不過如果想更進一步的了解都可以留言給我  <img src='http://take-ez.com/wp-includes/images/smilies/icon_razz.gif' alt=':-P' class='wp-smiley' /> </p>
<p><br class="spacer_" /></p>
<img src="http://take-ez.com/?ak_action=api_record_view&id=354&type=feed" alt="" />]]></content:encoded>
			<wfw:commentRss>http://take-ez.com/big5-unicode.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>ReportViewer Export to PDF</title>
		<link>http://take-ez.com/reportviewer-export-to-pdf.html</link>
		<comments>http://take-ez.com/reportviewer-export-to-pdf.html#comments</comments>
		<pubDate>Mon, 23 Jun 2008 13:20:30 +0000</pubDate>
		<dc:creator>hugo5688</dc:creator>
				<category><![CDATA[電腦兩三事]]></category>
		<category><![CDATA[PDF]]></category>
		<category><![CDATA[Windows]]></category>
		<category><![CDATA[外字]]></category>
		<category><![CDATA[實作筆記]]></category>

		<guid isPermaLink="false">http://sip.waytechinc.com.cn/blog/?p=78</guid>
		<description><![CDATA[最近實在是有點懶的寫blog，一半是工作，一半是blog都會出現亂碼，要手動調編碼才會正常，上星期花了點時間把整個wordpress重新安裝，並換了個theme，測試幾天下來都還蠻正常的，廢話不多說，正式開工嚕。 在工作上的有遇到外字轉PDF的問題，至於要怎麼轉就不在此篇的討論範圍內，此文章主要討論如何判定PDF的正確性，其實最簡單的方式就是開啟PDF並按「Ctrl + D」來檢示內容，如下圖所示 一份正確的PDF必定會把字型內嵌進去，在客戶那邊有遇到一個問題，就是字型沒有嵌入進去，如下所示， 但開啟PDF一樣可以看到正確的字碼，但要如何的判斷此份PDF文件是否正常? 正確的PDF文件是可以copy &#38; paste的，只要copy PDF的一段文字，並貼在notepad上，如可顯示copy的文字，這表示至少此PDF文件還算正常，在我客戶的例子是沒辦法正確的貼上，這時就要使用ultraedit來看一下PDF的「字碼」是否正確了，從PDF挑了「訊」這個字，訊的big5碼是「B054」，Unicode碼是「8A0A」，我在同一份PDF裡面挑了兩個不同位置的「訊」字，理論上就算位置的不同，但字碼還是一樣要相同，奇妙的事情發生了，如下圖所示， 訊字是用4 byte所顯示，而且兩個訊字的碼位都不同，在UTF-8的格式裡面，只有Ext.B字面才會用到4-6 byte，UTF-16也是在Ext.B才會用到4 byte，由此可以看出此份PDF確實是有問題的。 後來尋問了一下客戶是用什麼方式轉PDF的，對方告知是用ReportViewer來轉存的，搜尋了微軟，發現如下兩篇文章文章一、文章二，更可以確定目前ReportViewer轉存PDF是有問題的。]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">最近實在是有點懶的寫blog，一半是工作，一半是blog都會出現亂碼，要手動調編碼才會正常，上星期花了點時間把整個wordpress重新安裝，並換了個theme，測試幾天下來都還蠻正常的，廢話不多說，正式開工嚕。</p>
<p style="text-align: justify;">在工作上的有遇到外字轉PDF的問題，至於要怎麼轉就不在此篇的討論範圍內，此文章主要討論如何判定PDF的正確性，其實最簡單的方式就是開啟PDF並按「Ctrl + D」來檢示內容，如下圖所示</p>
<p style="text-align: justify;"><a href="http://farm4.static.flickr.com/3070/2604257650_a8ec8c5cec.jpg" rel="lightbox[76]"><img src="http://farm4.static.flickr.com/3070/2604257650_a8ec8c5cec.jpg" alt="" width="300" height="292" /></a></p>
<p style="text-align: justify;">一份正確的PDF必定會把字型內嵌進去，在客戶那邊有遇到一個問題，就是字型沒有嵌入進去，如下所示，</p>
<p style="text-align: justify;"><a href="http://farm4.static.flickr.com/3147/2604267036_3117347f52.jpg" rel="lightbox[76]"><img src="http://farm4.static.flickr.com/3147/2604267036_3117347f52.jpg" alt="http://farm4.static.flickr.com/3147/2604267036_3117347f52.jpg" width="300" height="292" /></a></p>
<p style="text-align: justify;">但開啟PDF一樣可以看到正確的字碼，但要如何的判斷此份PDF文件是否正常? 正確的PDF文件是可以copy &amp; paste的，只要copy PDF的一段文字，並貼在notepad上，如可顯示copy的文字，這表示至少此PDF文件還算正常，在我客戶的例子是沒辦法正確的貼上，這時就要使用ultraedit來看一下PDF的「字碼」是否正確了，從PDF挑了「訊」這個字，訊的big5碼是「B054」，Unicode碼是「8A0A」，我在同一份PDF裡面挑了兩個不同位置的「訊」字，理論上就算位置的不同，但字碼還是一樣要相同，奇妙的事情發生了，如下圖所示，</p>
<p style="text-align: justify;"><a href="http://farm4.static.flickr.com/3190/2604258028_195265d4a2_o.png" rel="lightbox[76]"><img src="http://farm4.static.flickr.com/3190/2604258028_195265d4a2_o.png" alt="http://farm4.static.flickr.com/3190/2604258028_195265d4a2_o.png" width="400" height="278" /></a></p>
<p style="text-align: justify;">訊字是用4 byte所顯示，而且兩個訊字的碼位都不同，在UTF-8的格式裡面，只有Ext.B字面才會用到4-6 byte，UTF-16也是在Ext.B才會用到4 byte，由此可以看出此份PDF確實是有問題的。</p>
<p style="text-align: justify;">後來尋問了一下客戶是用什麼方式轉PDF的，對方告知是用ReportViewer來轉存的，搜尋了微軟，發現如下兩篇文章<a href="http://forums.microsoft.com/msdn-cht/ShowPost.aspx?PostID=1547412&amp;SiteID=14" target="_blank">文章一</a>、<a href="http://forums.microsoft.com/msdn-cht/showpost.aspx?postid=1374048&amp;siteid=14" target="_blank">文章二</a>，更可以確定目前ReportViewer轉存PDF是有問題的。</p>
<img src="http://take-ez.com/?ak_action=api_record_view&id=76&type=feed" alt="" />]]></content:encoded>
			<wfw:commentRss>http://take-ez.com/reportviewer-export-to-pdf.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>使用者定義字元 (EUDC) 無法正確顯示</title>
		<link>http://take-ez.com/eudcerr.html</link>
		<comments>http://take-ez.com/eudcerr.html#comments</comments>
		<pubDate>Tue, 22 Apr 2008 05:46:05 +0000</pubDate>
		<dc:creator>hugo5688</dc:creator>
				<category><![CDATA[電腦兩三事]]></category>
		<category><![CDATA[Windows]]></category>
		<category><![CDATA[外字]]></category>
		<category><![CDATA[實作筆記]]></category>

		<guid isPermaLink="false">http://sip.waytechinc.com.cn/blog/?p=144</guid>
		<description><![CDATA[最近工作上遇到一個很怪的問題，就是在系統外字區有定義文字，但從軟體上看到的卻是韓文，打出來也是韓文，這問題是微軟系統本身造成的，是M$內建的某些字型影響到了外字區，所以會造成此種問題。相關的更新要跟微軟索取Hotfix，是不用收費的，但前提是你要是正版軟體。在XP SP1底下有另外一種作法，那就是刪掉系統內建的NEW Glium字型。 相關KB：在 Windows XP 和 Windows Server 2003 中無法正確顯示某些字元從結束使用者定義字元 (EUDC) 字型]]></description>
			<content:encoded><![CDATA[<p>最近工作上遇到一個很怪的問題，就是在系統外字區有定義文字，但從軟體上看到的卻是韓文，打出來也是韓文，這問題是微軟系統本身造成的，是M$內建的某些字型影響到了外字區，所以會造成此種問題。相關的更新要跟微軟索取Hotfix，是不用收費的，但前提是你要是正版軟體。在XP SP1底下有另外一種作法，那就是刪掉系統內建的<a href="http://en.wikipedia.org/wiki/New_Gulim" target="_blank">NEW Glium</a>字型。</p>
<p>相關KB：<a href="http://support.microsoft.com/kb/332134" target="_blank">在 Windows XP 和 Windows Server 2003 中無法正確顯示某些字元從結束使用者定義字元 (EUDC) 字型</a></p>
<img src="http://take-ez.com/?ak_action=api_record_view&id=69&type=feed" alt="" />]]></content:encoded>
			<wfw:commentRss>http://take-ez.com/eudcerr.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

