Unicode编码Linux下的转换
最近得到一份Unicode編碼的文件,想轉換成utf-8(其實就是想轉成非Unicode)。
在網上找了很多文章,有很多人把utf-8理解為unicode,搞得亂哄哄的。請記住,下面的段落是講如何把 Unicode 編碼的文件 轉化為 非Unicode的方式。
?
在linux下用iconv命令,
iconv -f ucs-2 -t utf-8 myfile > destfile
搞了半天,發現,Unicode編碼(簡稱為ucs)其實分為
ucs-2be 和ucs-2se?? 一個是大端法(big-endian),一個是小端法(little-endian),也就是一個碼子(2byte)的字節序列不同。windows下是小端法,Linux平臺下是大端法.
因此,需要明確指出是那種ucs編碼。(比較奇怪的是,這個文件是linux平臺產生的,我運行iconv的也是在linux平臺,為什么ucs-2不是默認的ucs-2be呢)
iconv -f ucs-2be -t utf-8 myfile > destfile
就好了。
多說一點:
(1)
unicode有2-bytes和4-bytes兩種,稱為ucs-2和ucs-4.
比如a(ascii碼為 0x61),采用usc-2編碼,編碼成16進制數是? 0x0061
小端法(ucs-2le),字節流是?? 61 00
大端法(ucs-2be),字節流是 00 61
一個只有alphabetic字符的Unicode編碼文件,打開后,如果是 00XX 00XX 那么就是大端法(這個從我的文件里也驗證了)。
?
(2) utc-xxxx系列編碼和unicode
為什么會出現utf-xxx系列呢,utf的意思是 unicode transform format? 也就是為了傳輸unicode而定義的一種編碼。不管怎么說,它定義了一種編碼方式。一個字符,在utf-xxxx和unicode中有不同的編碼方式。同時,可以吧unicode理解為一種解決語言的解決方案,規定了一套映射關系。為了便于使用有定義了utf-xxx系列,utf-xxxx和unicode編碼相同的集合,碼字不同。
為什么需要unicode的傳輸模式呢:unicode中的00有可能是正常編碼,而非字符串結束標志。很多Linux下的程序,都不支持讀unicode(雙字節),而是支持multibyte(多字節)編碼,那么,00就會被認為是字符串結尾了。
更詳細的說明,參見
http://www.cl.cam.ac.uk/~mgk25/unicode.html#history? 中的 What is UTF-8?
轉載于:https://www.cnblogs.com/codejumper/archive/2012/10/11/2718053.html
總結
以上是生活随笔為你收集整理的Unicode编码Linux下的转换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图形界面终端下打印内核调试信息
- 下一篇: 树形DP题目