关于utf8 unicode gbk 编码乱码汇总

首先从一个问题说起：

插入一个中文到blob类型（mysql编码是utf-unicode-ci).

insert into blobtype(data) values(‘中文你好‘)

赋值数据显示为：

涓枃浣犲ソ *

这是为什么？

blob存进去的出来为什么不是中文你好，因为编码的问题，我们复制后直接显示是asci编码。转成utf8编码就可以看到“中文你好”了。

unicode和utf8不是一个东西。

中文你好这4个字

中文转unicdoe是\u4e2d\u6587\u4f60\u597d。

中文转utf8

http://tool.chinaz.com/Tools/UTF-8.aspx

echo json_encode("中文"); //"\u4e2d\u6587"

在PHP5.4, 这个问题终于得以解决, Json新增了一个选项: JSON_UNESCAPED_UNICODE, 故名思议, 就是说, Json不要编码Unicode.

一、先来看一些有趣的字符编码转换

代码	以GBK格式保存	以UTF-8格式保存
String str = "cn中国";
java.net.URLEncoder.encode(str, "iso-8859-1")	cn%3F%3F	cn%3F%3F
java.net.URLEncoder.encode(str, "gbk")	cn%D6%D0%B9%FA	cn%D6%D0%B9%FA
java.net.URLEncoder.encode(str, "utf-8")	cn%E4%B8%AD%E5%9B%BD	cn%E4%B8%AD%E5%9B%BD
new String(str.getBytes(),"iso-8859-1")	cn???ú	cn??????
new String(str.getBytes(),"gbk")	cn中国	cn涓浗
new String(str.getBytes(),"utf-8")	cn?й?	cn中国

http://www.cnblogs.com/cy163/archive/2007/05/31/766886.html

时间： 2024-10-25 12:35:40

关于utf8 unicode gbk 编码乱码汇总的相关文章

ANSI, UTF-8, Unicode, GBK, GB2312 字符编码小结

这两天碰见一个Bug,涉及到字符编码,一通乱搜后,索性研究了下,整理出来,以便今后查阅. ASCII码,0~127,128个,这个就不用多说了,他是计算机文明的基石.但是这里面只有英文字母,其他国家如何把本国的文字输入到电脑中呢?所以基本每种语言都有自己的字符集,如汉字就有GB2312(简体中文),BIG5(繁体中文)等等. 但不同的ANSI编码在不同语言之间是不兼容的,所以对于不同的操作系统之间文件的传输,或者在同样的操作系统下,源文件语言不同于OS的语言文件的传输,需要转换成UTF-8格式.

UTF-8和GBK编码之间的区别(页面编码、数据库编码区别)以及在实际项目中的应用

第一节:UTF-8和GBK编码概述 UTF-8 (8-bit Unicode Transformation Format) 是一种针对Unicode的可变长度字符编码,又称万国码,它包含全世界所有国家需要用到的字符,是国际编码,通用性强,是用以解决国际上字符的一种多字节编码.由Ken Thompson于1992年创建.UTF-8用1到4个字节编码UNICODE字符,它对英文使用8位/8Bit(即1个字节/1Byte),中文使用24位/24Bit(3个字节/3Byte)来编码.用在网页上可以同一页

php中序列化与反序列化在utf8和gbk编码中测试

在php中如果我们统一编码是没有什么问题了,但是很多朋友会发现一个问题就是utf8和gbk编码中返回的值会有所区别: php 在utf8和gbk编码下使用serialize和unserialize互相序列化和反序列化会出现无法成功反序列化的问题. 问题出现的原因主要是在不同编码下strlen函数计算中文字符串长度不同的原因. <?php $array=array('title'=>'php教程分享网','url'=>'http://www.111cn.net'); echo serial

Ansi,UTF8,Unicode,ASCII编码的差别

近日须要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,以下全是从网上搜来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为单字节内码 -- Single-Byte character sets (SBCS),能够支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),能够支持65000个字符编码.前者

Ansi,UTF8,Unicode,ASCII编码的区别 ---我看完了明白了很多

来自:http://blog.csdn.net/xiongxiao/article/details/3741731 ------------------------------------------------------------------------ 近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,下面全是从网上搜来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码

UTF-8,Unicode,GBK,希腊字母读法,ASCII码表,HTTP错误码,URL编码表,HTML特殊字符,汉字编码简明对照表

UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式．utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就O

PHP的array_walk和array_map函数实现数组值UTF-8转GBK编码

在PHP中,array_walk() 和 array_map()两个函数都可以实现对数组中每个值的修改,比如本例就是将数组中所有的值,由UTF-8编码转成GBK编码. 当然,除了这两个函数,也可以用 foreach 遍历数组实现,不过,相比于直接用 PHP 的内部函数,显然效率更低并且不够优雅. array_wark() 实现方式如下: function array2gbk($array) { array_walk($array, function(&$value) { $value = ico

宽字符、多字节、unicode、utf-8、gbk编码转化

今天遇到一个编码的问题,困惑了我很长时间,所以就简要的的了解了一下常用的编码类型. 我们最常见的是assic编码,它是一种单字节编码,对多容纳256个字符. 我们在编程的时候经常遇到unicode,unicode是一种宽字节编码,能够很好的融合世界各个国家的字符,具有国际通用性,所谓宽字符其实使用两个字节来表示一个符号. 而utf8是一种多字节编码,一个字符所占用的字节数不确定,是对unicode的精简版本,也用具有世界通用性.Gbk也是一种双字节编码,其实就是对中文简体的一种编码,不具有世界通

utf-8 和gbk编码的区别

UTF- 8: 是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码. GBK 是国家标准GB2312基础上扩容后兼容GB2312的标准.GBK的文字编码是用双字节来表示的,即不论中.英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1.GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大所有网页一般采用utf-8,因为网页中基本是大量的html代码采用utf-8比较不会占用空间 utf-8编码的