一下是一篇完全相同的英文文本使用ASCII、Unicode、utf-8编码方式保存后的文本大小
ASCII编码是1个字节,但这种编码方式最多只能容纳255个字符,因此其它语言如中文无法用ASCII编码表示。
Unicode编码通常是2个字节,共可容纳65536个字符在通过相应的代理机制实现附加的917476个字符唯一表示,因此可唯一的标识世界上几乎每一种语言的字符。
但如果一篇文档中有很多英文的话,使用Unicode编码所占用的内存就会比使用ASCII编码占用的内存高出一倍(因为在Unicode编码下一个英文字符也是占用2个字节),如此便会浪费大量的存储空间。为解决这个问题,utf-8编码由此诞生。
utf8编码为可变长编码,编码时把一个字符按需编码成1-6个字节,如英文编成1个字节,汉字通常编成3个字节,由此达到既能存储所有类型的字符,同时又最小化存储大小,减小存储和传输成本。
以下为一篇半英文半中文的文档分别使用Unicode编码和utf-8编码时的文件大小
相关推荐
[教程]-ASCII,Unicode和UTF-8之间的区别和联系
ASCII 及UTF-8 与字符互相转换
可以实现unicode , 文本,ascII,UTF-8之间的任意转换,快速方便。
字符编码笔记:ASCII-Unicode和UTF-8 字符编码笔记:ASCII-Unicode和UTF-8 字符编码笔记:ASCII-Unicode和UTF-8
趣谈Unicode、Ascii、utf-8、GB2312、GBK等编码学问_.docx
ASCII、Unicode、GBK和UTF-8字符编码的区别联系
PB的utf-8转换,包括加码解码等等 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。 下面就是我的笔记,主要用来整理自己的思路。..............
字符编码问题(ASCII、UNICODE、UTF-8 )
介绍字符编码:ASCII,Unicode和UTF-8
ASCII、Unicode和UTF-8学习文档。 理解这个很重要啊!
这是一篇写的非常好的故事,带你了解计算机字符编码的前世今生。让人记忆非常深刻,也拿来做过课堂演讲。——《一个故事带你搞懂ASCII-Unicode字符集和UTF-8编码》
JDK中文转utf-8编码c:\Java\jdk1.6.0_05\bin中有个native2ascii.exe文件就是了
想到如下特征来识别汉字: ... 如果第1位是0就不需要判断的,一定是ASCII字符。 2. 如果第1位是1开头的,第2位是0开头的,一定是GB编码。 3. 如果第1位是非1110开头的,则一定是GB编码。 4. 多做几个汉字判断。
比较方便使用的java web开发转码小助手。 说明: 1,UTF-8转ASCII,即中转英使用; 2,逆转时,直接用js可做到(本人很少用,略);
各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解
UTF-8''ASCII转换工具, 支持各种字符编码。对辅助编程有极大帮助
最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大...
字符编码笔记:ASCII,Unicode和UTF-8[参照].pdf
字符编码转换的工具(根据3GPP 03.38,11.11附录等协议),可以把字符转换成ascii,8 bit,7 bit,UCS2,UTF-8编码。 在做手机软件开发的时候,调试WMS,Phone book,STK等模块可能会用的到。