UTF-8

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

优点

UTF-8编码可以通过屏蔽位和移位操作快速读写。字符串比较时strcmp()和wcscmp()的返回结果相同，因此使排序变得更加容易。字节FF和FE在UTF-8编码中永远不会出现，因此他们可以用来表明UTF-16或UTF-32文本（见BOM） UTF-8 是字节顺序无关的。它的字节顺序在所有系统中都是一样的，因此它实际上并不需要BOM。

缺点

你无法从UNICODE字符数判断出UTF-8文本的字节数，因为UTF-8是一种变长编码它需要用2个字节编码那些用扩展ASCII 字符集只需1个字节的字符 ISO Latin-1 是UNICODE的子集，但不是UTF-8的子集 8位字符的UTF-8编码会被email网关过滤，因为internet信息最初设计为7位ASCII码。因此产生了UTF-7编码。 UTF-8 在它的表示中使用值100xxxxx的几率超过50%，而现存的实现如ISO 2022， 4873， 6429，和8859系统，会把它错认为是C1 控制码。因此产生了UTF-7.5编码。

时间： 2024-09-29 11:20:52

UTF-8的相关文章

UCS UTF UTF-7 UTF-8 UTF-16

Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案.Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS.UCS可以看作是"Unicode Character Set"的缩写.UCS规定了怎么用多个字节表示各种文字. UCS有两种格式:UCS-2和UCS-4. 顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,

文字编码ASCII，GB2312，GBK，GB18030，UNICODE，UCS，UTF的解析

众所周知,一个文字从输入到显示到存储是有一个固定过程的,其过程为:输入码(根据输入法不同而不同)→机内码(根据语言环境不同而不同,不同的系统语言编码也不一样)→字型码(根据不同的字体而不同)→存储码(根据保存的编码类型不同而不同).不同的存储码之间又有什么异同呢? 一.ASCII系列编码首先来说明ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),这个编码的时代就久远了,是由美国国家标准局(ANSI)制定,目

UTF与ascii区别

由于世界各地有很多语言,ascii的8个位不够用,世界各国就扩展位来表示他们当地语言,导致一个字符的位数不一样,于是iso就制定了UTF来统一标准. 参考:http://www.imkevinyang.com/2009/02/%E5%AD%97%E7%AC%A6%E7%BC%96%E8%A7%A3%E7%A0%81%E7%9A%84%E6%95%85%E4%BA%8B%EF%BC%88ascii%EF%BC%8Cansi%EF%BC%8Cunicode%EF%BC%8Cutf-8%E5%8C%B

UTF编码问题小结

在编程当中经常出现乱码的问题,而由此一般会引发很多惨剧,如读文件不成功.用户名显示乱码等,所以端午节抽了一小点时间好好看了一下编码问题,以备遗忘. 首先是中文编码,除了台湾和香港常用的BIG5,国内大概都用的是gb2312,这个可以从各大门户的首页源码中找到一些线索.还有一种叫gbk,这是微软对gb2312的拓展.主要由于gb2312只能表示6763个简体汉字,682个符号,具体可见字符区别. 然后是编程当中常见的utf编码,相信很多程序员都晕.比如我们最近在做android的NDK编程时,就发

ascii、unicode、utf、gb等编码详解

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.八位的字节一共可以组合出256(2的8次方)种不同的状态. 他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端.打印机遇上约定

jsp中pageEncoding、charset=UTF -8

jsp中pageEncoding.charset=UTF -8" 在JSP/Servlet 中主要有以下几个地方可以设置编码,pageEncoding="UTF-8".contentType="text/html;charset=UTF -8".request.setCharacterEncoding("UTF-8")和response.setCharacterEncoding ("UTF-8"),其中前两个只

Unicode、UTF－8 和 ISO8859-1到底有什么区别

说明:本文转载于新浪博客,旨在方便知识总结.原文地址:http://blog.sina.com.cn/s/blog_673c81990100t1lc.html 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687".

将centos字符编码换成utf－8

1.mysql支持中文 http://blog.csdn.net/ouitiken/article/details/23171327 2.修改centos支持中文,并于mysql字符集一样为utf-8 LANG="zh_CN.UTF-8"SUPPORTED="zh_CN.UTF-8:zh_CN:zh:en_US.UTF-8:en_US:en"SYSFONT="latarcyrheb-sun16"

pcre 不支持 utf 的问题

问题: Error 500 preg_match(): Compilation failed: this version of PCRE is compiled without UTF support at offset 0 具体分析: 环境:centos7,lnmp,nginx和php-fpm都是yum安装的,pcre已经安装开始以为是nginx编译的问题,重新编译,不行. 最后发现是pcre编译有问题,pcre7.9以上的版本,默认是不支持Unicode.UTF-8的,要重新编译手动指定

java中的char中unicode和utf的关系

char是Java的基础类型(原类型 ),是字符类型.在Java中字符是基于Unicode编码的,所以一个Java的字符占2个字节,字符的内容存的是unicode的码值(二进制数字).问题来了,程序是怎么把unicode的码值转换为我们要的程序数据?例如:汉字的'汉'对应的unicode码值为:0x6C49.我们想要的程序数据为'汉',而计算机存储的为码值.如何把码值‘0x6c49’显示为‘字’,需要一个转换过程. 这个转换过程需要一个转换规则.转换规则的书面写法为UTF(UCS Transfo

猜你喜欢

#FTP

1 #FTP client 2 3 import socket 4 5 import os 6 7 8 class FtpClient(object): 9 def __init__(self): 1 ...

Unity Shader入门教程（四）反射光斑的实现

本节内容介绍PhongModel(也就是上文说的反射光的计算模型),采用的计算方法是BlinPhong(也即是用视线方向V+光源方向L的和,与N做点积,随后幂化得到高光反射系数)下图采用了csdn博文 ...

EOJ 1816 并查集的的简单应用——判断图联通

题目:eoj1816 题目分析:判断图是否连通,可用dfs遍历图算法.这里我采用的是并查集的方法.初始化时将每个节点看作一个集合,则每给出一条边即把两个集合合并.最后遍历所有点,有几个集合便有几个连通 ...

Linux使用退格键时出现^H解决方法

以前在linux下执行脚本不注意输错内容需要删除时总是出现^H ,以前不知道真相的我没办法只有再重头运行一次脚本,后来发现其实时有解决办法的,所以记录一下. ^H不是H键的意思,是backspace. ...

云层天咨上海再下一棋，测试教育今年更上一楼

2016年7月24日之后,请广大软件测试从业人员再记住一个地址:上海市黄浦区中华路567号朝阳门大厦6D,这是云层天咨上海中心的所在地.在上个周末,碳烤一般的上海市区,这里格外的清凉,50多位各企业嘉 ...

x:Class: 用来创建一个partial的class, 比如默认生成的x:Class="MyTest.MainWindow", 会自动生成一个MainWindow的partia ...

前端试题-小试牛刀（1）

1. 请写出下面代码片段的输出结果:num为NaN,NaN和NaN是不相等的,NaN的类型是number类型,所以最后会alert‘number’. var str = 'abc123', n ...

linux下监控是否有IO

JDU:/host-001e67a8d50b /log/today # inotifywait -h inotifywait 3.14 Wait for a particular event on a ...

郑重声明，关于某正规刊物发表的一篇CChart的文章

近日,笨笨发现在山东省技术开发服务中心主办的刊物<科技信息>2014年第10期中,刊登了一篇名为<基于Win32API和C++工业曲线绘制库CChart的研究>的文章,署名作者 ...

HTTP之二 http 301 和 302的区别

1.什么是301转向?什么是301重定向? 301转向(或叫301重定向,301跳转)是当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP数据流中头信息(header)中的状态码的一种, ...

股价飙升20%市值增长100亿，《纸牌屋》之父Netflix凭什么比他的竞争者要强12倍？

[阅读原文] 作者:楠沨 10月17日,全球知名网络影视平台Netflix公布第三季度财报,新增用户人数为357万人,比预期高出50%,营收22.9亿,同比增长31.7%,净利润为5150万美元,同比 ...

java 实现邮件发送

1.下载一个mail.jar架包 http://download.csdn.net/detail/woainimax/9748744 2.AnnexMailService.java import ja ...

HDU2056(rectangles)

Rectangles Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total ...

html+js实现图片预加载（异步加载）

在前端设计时,为了让某县页面的图片即使缓存到浏览器中,一般使用预加载技术,但更为确切的应该称为异步加载,因为对线程不会造成阻塞. 核心代码 <script type="text/jav ...

python作业(运算符续)

运算符续 1算数运算 2比较运算 3赋值运算 4位运算: 注: 5逻辑运算 and注解: 1在python中,and 和of执行布尔逻辑演算,如你所期待的一样,但是它们并不返回布尔值:而是,返回它们 ...

精妙绝伦的花箱送给我一番事业

精妙绝伦的花箱送给我一番事业看着院子里面摆着的花箱心中总是有种说不出来的喜悦,要知道两年前的我还是一个没有人生目标不知道该要做什么的懵懂少年.也是一次偶然的机会让我看到了美丽的花箱,一开始我也没有创 ...

Linux Shell 编程实战技巧

目前,越来越多的企业应用会部署在 Linux 系统上的,而 Linux Shell 脚本可以极大地帮助我们完成这些应用的运维任务.这使得 Linux Shell 开发技能成为开发人员的一项重要的.有竞 ...

PB控件属性之TreeView

TreeView [其他] ■TreeView控件可以以树型方式来组织项目,不仅显示直观.界面友好,而且项目的管理和操作更为方便,是当前比较流行的一个控件. 该控件的特点是在较小的空间可以分层次显示大 ...

接收广播BroadcastReceiver

Broadcast Receiver用于接收并处理广播通知(broadcast announcements).多数的广播是系统发起的,如地域变换.电量不足.来电来信等.程序也可以播放一个广播.程序可以 ...

jQuery知识点整合

一.jQuery介绍 jQuery是一个函数库,一个js文件,页面用script标签引入js文件就可以使用 <script type="text/javascript" sr ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.