外字 網誌庫存

  • 由於hugo每天都要在字碼中打滾,自然而然的對各種編碼有較基本的認知,也發現到一般的使用者,或是資訊相關人員其實對字碼的部份也不甚了解,所以在這前提之下讓hugo想把兩者的差異性寫成較簡單的文章,供大家參考。在此文章內將先不論兩者編碼之規範,單純以收錄字數做單一比較。

    Big5碼與Unicode碼之差異性

    由於hugo每天都要在字碼中打滾,自然而然的對各種編碼有較基本的認知,也發現到一般的使用者,或是資訊相關人員其實對字碼的部份也不甚了解,所以在這前提之下讓hugo想把兩者的差異性寫成較簡單的文章,供大家參考。在此文章內將先不論兩者編碼之規範,單純以收錄字數做單一比較。

    繼續閱讀...

  • 最近實在是有點懶的寫blog,一半是工作,一半是blog都會出現亂碼,要手動調編碼才會正常,上星期花了點時間把整個wordpress重新安裝,並換了個theme,測試幾天下來都還蠻正常的,廢話不多說,正式開工嚕。 在工作上的有遇到外字轉PDF的問題,至於要怎麼轉就不在此篇的討論範圍內,此文章主要討論如何判定PDF的正確性,其實最簡單的方式就是開啟PDF並按「Ctrl + D」來檢示內容,如下圖所示 一份正確的PDF必定會把字型內嵌進去,在客戶那邊有遇到一個問題,就是字型沒有嵌入進去,如下所示, 但開啟PDF一樣可以看到正確的字碼,但要如何的判斷此份PDF文件是否正常? 正確的PDF文件是可以copy & paste的,只要copy PDF的一段文字,並貼在notepad上,如可顯示copy的文字,這表示至少此PDF文件還算正常,在我客戶的例子是沒辦法正確的貼上,這時就要使用ultraedit來看一下PDF的「字碼」是否正確了,從PDF挑了「訊」這個字,訊的big5碼是「B054」,Unicode碼是「8A0A」,我在同一份PDF裡面挑了兩個不同位置的「訊」字,理論上就算位置的不同,但字碼還是一樣要相同,奇妙的事情發生了,如下圖所示, 訊字是用4 byte所顯示,而且兩個訊字的碼位都不同,在UTF-8的格式裡面,只有Ext.B字面才會用到4-6 byte,UTF-16也是在Ext.B才會用到4 byte,由此可以看出此份PDF確實是有問題的。 後來尋問了一下客戶是用什麼方式轉PDF的,對方告知是用ReportViewer來轉存的,搜尋了微軟,發現如下兩篇文章文章一、文章二,更可以確定目前ReportViewer轉存PDF是有問題的。

    ReportViewer Export to PDF

    最近實在是有點懶的寫blog,一半是工作,一半是blog都會出現亂碼,要手動調編碼才會正常,上星期花了點時間把整個wordpress重新安裝,並換了個theme,測試幾天下來都還蠻正常的,廢話不多說,正式開工嚕。 在工作上的有遇到外字轉PDF的問題,至於要怎麼轉就不在此篇的討論範圍內,此文章主要討論如何判定PDF的正確性,其實最簡單的方式就是開啟PDF並按「Ctrl + D」來檢示內容,如下圖所示 一份正確的PDF必定會把字型內嵌進去,在客戶那邊有遇到一個問題,就是字型沒有嵌入進去,如下所示, 但開啟PDF一樣可以看到正確的字碼,但要如何的判斷此份PDF文件是否正常? 正確的PDF文件是可以copy & paste的,只要copy PDF的一段文字,並貼在notepad上,如可顯示copy的文字,這表示至少此PDF文件還算正常,在我客戶的例子是沒辦法正確的貼上,這時就要使用ultraedit來看一下PDF的「字碼」是否正確了,從PDF挑了「訊」這個字,訊的big5碼是「B054」,Unicode碼是「8A0A」,我在同一份PDF裡面挑了兩個不同位置的「訊」字,理論上就算位置的不同,但字碼還是一樣要相同,奇妙的事情發生了,如下圖所示, 訊字是用4 byte所顯示,而且兩個訊字的碼位都不同,在UTF-8的格式裡面,只有Ext.B字面才會用到4-6 byte,UTF-16也是在Ext.B才會用到4 byte,由此可以看出此份PDF確實是有問題的。 後來尋問了一下客戶是用什麼方式轉PDF的,對方告知是用ReportViewer來轉存的,搜尋了微軟,發現如下兩篇文章文章一、文章二,更可以確定目前ReportViewer轉存PDF是有問題的。

    繼續閱讀...

  • 最近工作上遇到一個很怪的問題,就是在系統外字區有定義文字,但從軟體上看到的卻是韓文,打出來也是韓文,這問題是微軟系統本身造成的,是M$內建的某些字型影響到了外字區,所以會造成此種問題。相關的更新要跟微軟索取Hotfix,是不用收費的,但前提是你要是正版軟體。在XP SP1底下有另外一種作法,那就是刪掉系統內建的NEW Glium字型。 相關KB:在 Windows XP 和 Windows Server 2003 中無法正確顯示某些字元從結束使用者定義字元 (EUDC) 字型

    使用者定義字元 (EUDC) 無法正確顯示

    最近工作上遇到一個很怪的問題,就是在系統外字區有定義文字,但從軟體上看到的卻是韓文,打出來也是韓文,這問題是微軟系統本身造成的,是M$內建的某些字型影響到了外字區,所以會造成此種問題。相關的更新要跟微軟索取Hotfix,是不用收費的,但前提是你要是正版軟體。在XP SP1底下有另外一種作法,那就是刪掉系統內建的NEW Glium字型。 相關KB:在 Windows XP 和 Windows Server 2003 中無法正確顯示某些字元從結束使用者定義字元 (EUDC) 字型

    繼續閱讀...