MySQL的字符编码体系(二)——数据传输编码

MySQL的字符编码体系可以分成两部分:一部分是关于数据库服务器本身存储数据表时如何管理字符数据的编码;另一部分是关于客户端与数据库服务器传输数据如何编码。上一篇MySQL的字符编码体系(一)——数据存储编码讨论了数据存储编码,本篇讨论数据传输编码。

MySQL的客户端可以分为两种:一种就是用C语言写的官方客户端——MySQL命令程序;一种就是平常程序员使用JDBC等connector API写成的客户端。这里只讨论第一种。

Windows客户端

MySQL命令程序在Windows和Linux系统中关于字符编码处理的部分并不等效,下图是Windows系统的客户端字符编码转换逻辑:

其中的三个character变量存在于服务器上,而charset_info存在于客户端。

当客户端启动连接到服务器时,客户端将根据配置参数设置charset_info为指定编码,同时通知服务器让服务器把三个character变量设置为相同编码。

数据传输流程

  1. 客户端从控制台标准输入读取一行命令文本,其编码为操作系统编码;
  2. 客户端将命令从系统编码转码为客户端charset_info变量设定的编码;
  3. 客户端将命令文本发送给服务器;
  4. 服务器把收到的文本解码为character_set_client编码,这个编码通常与客户端charset_info一致;
  5. 服务器把命令文本转码为character_set_connection;
  6. 服务器执行命令,产生结果;
  7. 将结果转码为character_set_results发送给客户端;
  8. 客户端把收到的结果解码为charset_info编码,这个编码通常与character_set_results一致;
  9. 客户端将结果转码为操作系统编码,输出到控制台标准输出。

由于在Windows平台上MySQL程序在读取控制台时使用了Unicode Console Read API,所以程序从控制台获取的原始字符串实际上是UTF16编码,所以这里的“操作系统编码”并不是Windows通常的GBK,而应该看做UTF16。

Linux客户端

下图是Linux系统中的MySQL客户端程序字符编码转换逻辑:

它与Windows版的不同之处就在于,它并不把来自终端标准输入的操作系统编码字符串强制转换为charset_info编码,也不会把输出到终端的charset_info编码结果字符串强制转换为操作系统编码。也就是说,Linux平台的MySQL程序这时候会会忽略charset_info变量。当然,这样一来Linux客户端的数据传输流程就比Windows客户端对应地少几步。

乱码陷阱模拟

根据Linux平台MySQL程序的这一特点,很容易产生这样一个可能的陷阱:在Linux系统中通过MySQL客户端向数据库插入中文数据后,查询结果没有乱码,但从配置正确的Windows平台MySQL客户端查询同一个表得到的却是乱码。

可以这样模拟上述的情况:

创建一个表,其中只包含一个GBK字符串字段和UTF8字符串字段。Linux中启动MySQL连接到数据库服务器,将服务器的三个character变量从默认的UTF8修改为GBK。向数据库插入中文数据,立即select,结果无异常:

但是使用Windows的MySQL客户端查询时,结果却是乱码:

乱码分析

结合前面的数据传输流程,就能知道问题出在什么地方:

  1. 客户端从终端读取了一行utf8编码(Linux默认)的命令文本,忽略charset_info变量,直接把文本发送给服务器;
  2. 服务器因为事先的命令charset gbk把三个character变量都设置为了GBK,所以服务器认为收到的文本是GBK编码;
  3. 接下来服务器会不经过任何转码将文本字符串直接存入数据表中,因为数据表第一个字段也是GBK。

到这里为止,数据表中存了一个UTF8字符串,而服务器却当它是GBK,在同一个Linux客户端查询时:

  1. 表中的字符串不经过任何转码直接发给客户端,因为character_set_results也是GBK;
  2. 客户端收到查询结果后因为忽略charset_info而直接不经过转码输出到终端标准输出;
  3. 终端得到的数据实际上是UTF8编码的,所以正常输出。

在Windows客户端查询时:

  1. 表中的字符串(UTF8)不经过任何转码直接发给客户端,因为character_set_results也是GBK;
  2. 客户端收到查询结果后认为是charset_info编码(此时为GBK);
  3. 客户端把查询结果从charset_info转码为UTF16,然后调用Unicode Console Write API输出,看到乱码。

乱码“修复”

如果Windows客户端也想看到正确的结果,那就要故意错误地配置:

  1. 执行命令charset utf8,这会将charset_info和三个服务器character都设置为UTF8;
  2. 执行命令set names gbk,这只会将三个服务器character设置为GBK;
  3. 现在select,结果看上去不再乱码了。

MySQL的字符编码体系(二)——数据传输编码

时间: 2024-11-05 20:25:50

MySQL的字符编码体系(二)——数据传输编码的相关文章

MySQL的字符编码体系(一)——数据存储编码

安装MySQL好多次了,每次都会纠结于数据库的字符编码配置,所以我决定这一次彻底把它理清. MySQL的字符编码结构比较细,它大方向分为两个部分:数据存储编码和数据传输编码.本篇讨论数据存储编码部分,数据传输编码在下一篇MySQL的字符编码体系(二)--数据传输编码中讨论. 编码层次 数据存储的字符编码配置是指定数据库中存储的数据默认采用什么字符编码.默认字符编码的设置分为四个层次:服务器级.数据库级.数据表级和列级.也就是说,可以为服务器设置一个默认字符编码,再为服务器中的每一个数据库设置不同

深入了解mysql数据传输编码原理

一.基本概念(这里引用http://www.laruence.com/2008/01/05/12.html) 1. 给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码(Encoding).例如,我们给字符'A'赋予数值0,给字符'B'赋予数值1,则0就是字符'A'的编码: 2. 给定一系列字符并赋予对应的编码后,所有这些字符和编码对组成的集合就是字符集(Character Set).例如,给定字符列表为{'A','B'}时,{'A'=>0, 'B'=>1}就

python之字符编码(二)

一.字符编码的发展史 阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII ASCII:一个Bytes代表一个字符(英文字符/键盘上的所有其他字符),1Bytes=8bit,8bit可以表示0-2**8-1种变化,即可以表示256个字符 ASCII最初只用了后七位,127个数字,已经完全能够代表键盘上所有的字符了(英文字符/键盘的所有其他字符) 后来为了将拉丁文也编码进了ASCII表,将最高位也占用了 阶段二:为了满足中文,中国人定制了GBK GBK:2Bytes代表一个中文字符,

刨根究底字符编码之二——关键术语解释(下)

关键术语解释(下) 一.第1层 抽象字符表ACR (Abstract Character Repertoire抽象字符清单):明确字符的范围(即确定支持哪些字符) 1. 抽象字符表ACR是一个编码系统支持的所有抽象字符的集合,可以简单理解为无序的字符集合,用于确定字符的范围,即要支持哪些字符. 抽象字符表ACR的一个重要特点是字符的无序性,即其中的字符并没有编排数字顺序,当然也就没有数字编号. 2. "抽象"字符不具有某种特定的字形,不应与具有某种特定字形的"具体"

mysql数据库字符编码修改

mysql数据库字符编码修改 修改数据库的字符集mysql>use mydb mysql>alter database mydb character set utf8; 创建数据库指定数据库的字符集 mysql>create database mydb character set utf8; 通过MySQL命令行修改: mysql> set character_set_client=utf8;Query OK, 0 rows affected (0.00 sec) mysql>

[C语言]Unicode编码(二)-中文字符刷选

Unicode编码(二)-中文字符刷选 1,UTF-8编码中三字节中文字符的刷选方法如下: int chinese_filter(unsigned char one, unsigned char two ) {     int flag = -1;     if ( one >= 0x4E && one < 0x9F )     {         flag = 1;     }     else if ( one == 0x9F && two <= 0x

Mysql设置字符编码及varchar宽度问题

ubuntu16.04通过仓库安装的mysql5.7的配置文件在 /etc/mysql/mysql.conf.d/mysqld.cnf 修改字符只需要 在[mysqld] character-set-server=utf8 collation-server=utf8_general_ci 然后重启 sudo service mysql start 当你设置了UTF8编码 那么varchar(4)这个4即表示最多4个英文字母,当是汉字的时候也是最多4个汉字

Linux下修改MySQL数据库字符编码为UTF-8解决中文乱码

由于MySQL编码原因会导致数据库出现乱码. 解决办法: 修改MySQL数据库字符编码为UTF-8,UTF-8包含全世界所有国家需要用到的字符,是国际编码. 具体操作: 1.进入MySQL控制台 >mysql -uroot -p #输入密码进入 >status; #查看当前MySQL运行状态,如下图所示: 2.修改mysql配置文件 [[email protected] ~]# vi /etc/my.cnf #在[client]段增加下面代码 default-character-set=utf

mysql之字符编码问题

mysql编码分为服务端编码和客户端编码两大类字段编码, 表编码, 数据库编码这些编码都属于服务端编码,服务端编码决定你可以存哪些字符以及这些字符要哪种规则排序.字段编码优先级最高. 你插入用什么码属于客户端编码, 你用什么客户端编码都无所谓,只要插入前加个命令set names xxx 就可以了,mysql都会给你转换,你考虑只是客户端编码和服务端编码大小集问题,是否存在映射.(比如服务端编码为GB2312, 客户端编码为BIG5, mysql肯定转换不了)如果要正常显示字符,客户端编码xxx