當前位置：首頁 > 运维知识 > linux >内容正文

linux

Unicode编码Linux下的转换

發布時間：2025/5/22 linux 15 豆豆

生活随笔收集整理的這篇文章主要介紹了 Unicode编码Linux下的转换小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近得到一份Unicode編碼的文件，想轉換成utf-8(其實就是想轉成非Unicode）。

在網上找了很多文章，有很多人把utf-8理解為unicode，搞得亂哄哄的。請記住，下面的段落是講如何把 Unicode 編碼的文件轉化為非Unicode的方式。

在linux下用iconv命令，

iconv -f ucs-2 -t utf-8 myfile > destfile

搞了半天，發現，Unicode編碼（簡稱為ucs）其實分為

ucs-2be 和ucs-2se?? 一個是大端法(big-endian)，一個是小端法(little-endian)，也就是一個碼子（2byte）的字節序列不同。windows下是小端法,Linux平臺下是大端法.

因此，需要明確指出是那種ucs編碼。（比較奇怪的是，這個文件是linux平臺產生的，我運行iconv的也是在linux平臺，為什么ucs-2不是默認的ucs-2be呢）

iconv -f ucs-2be -t utf-8 myfile > destfile

就好了。

多說一點：

（1）

unicode有2-bytes和4-bytes兩種，稱為ucs-2和ucs-4.

比如a（ascii碼為 0x61)，采用usc-2編碼,編碼成16進制數是? 0x0061

小端法(ucs-2le)，字節流是?? 61 00

大端法(ucs-2be)，字節流是 00 61

一個只有alphabetic字符的Unicode編碼文件，打開后，如果是 00XX 00XX 那么就是大端法（這個從我的文件里也驗證了）。

（2） utc-xxxx系列編碼和unicode

為什么會出現utf-xxx系列呢，utf的意思是 unicode transform format? 也就是為了傳輸unicode而定義的一種編碼。不管怎么說，它定義了一種編碼方式。一個字符，在utf-xxxx和unicode中有不同的編碼方式。同時，可以吧unicode理解為一種解決語言的解決方案，規定了一套映射關系。為了便于使用有定義了utf-xxx系列，utf-xxxx和unicode編碼相同的集合，碼字不同。

為什么需要unicode的傳輸模式呢：unicode中的00有可能是正常編碼，而非字符串結束標志。很多Linux下的程序，都不支持讀unicode（雙字節），而是支持multibyte(多字節）編碼，那么，00就會被認為是字符串結尾了。

更詳細的說明，參見

http://www.cl.cam.ac.uk/~mgk25/unicode.html#history? 中的 What is UTF-8?

轉載于:https://www.cnblogs.com/codejumper/archive/2012/10/11/2718053.html

總結

以上是生活随笔為你收集整理的Unicode编码Linux下的转换的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

linux

Unicode编码Linux下的转换

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操