`

一分钟学会ASCII、Unicode、utf-8编码的异同

 
阅读更多

 

一下是一篇完全相同的英文文本使用ASCII、Unicode、utf-8编码方式保存后的文本大小

 

ASCII编码是1个字节,但这种编码方式最多只能容纳255个字符,因此其它语言如中文无法用ASCII编码表示。

Unicode编码通常是2个字节,共可容纳65536个字符在通过相应的代理机制实现附加的917476个字符唯一表示,因此可唯一的标识世界上几乎每一种语言的字符。

但如果一篇文档中有很多英文的话,使用Unicode编码所占用的内存就会比使用ASCII编码占用的内存高出一倍(因为在Unicode编码下一个英文字符也是占用2个字节),如此便会浪费大量的存储空间。为解决这个问题,utf-8编码由此诞生。

utf8编码为可变长编码,编码时把一个字符按需编码成1-6个字节,如英文编成1个字节,汉字通常编成3个字节,由此达到既能存储所有类型的字符,同时又最小化存储大小,减小存储和传输成本。

 

以下为一篇半英文半中文的文档分别使用Unicode编码和utf-8编码时的文件大小



 

  • 大小: 105.7 KB
  • 大小: 74.2 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics