特殊汉字“𣸭”引发的对于字符集的思考;mysql字符集;sqlalchemy字符集设置;客户端字符集设置;

字符集、字符序的概念与联系

在数据的存储上,MySQL提供了不同的字符集支持。而在数据的对比操作上,则提供了不同的字符序支持。

MySQL提供了不同级别的设置,包括server级、database级、table级、column级,可以提供非常精准的设置。

什么是字符集、字符序?简单的来说:

  1. 字符集(character set):定义了字符以及字符的编码。
  2. 字符序(collation):定义了字符的比较规则。

举个例子:

有四个字符:A、B、a、b,这四个字符的编码分别是A = 0, B = 1, a = 2, b = 3。这里的字符 + 编码就构成了字符集(character set)。

如果我们想比较两个字符的大小呢?比如A、B,或者a、b,最直观的比较方式是采用它们的编码,比如因为0 < 1,所以 A < B。

另外,对于A、a,虽然它们编码不同,但我们觉得大小写字符应该是相等的,也就是说 A == a。

这上面定义了两条比较规则,这些比较规则的集合就是collation。

  1. 同样是大写字符、小写字符,则比较他们的编码大小;
  2. 如果两个字符为大小写关系,则它们相等。

字符集涉及数据库配置(character_set_database)、数据表配置(默认继承数据库,也可以修改)、列配置(类型为CHAR、VARCHAR、TEXT的列,可以指定字符集/字符序)、server端配置(character_set_server,所有字符最后存储时,使用的编码字符集)、client端配置(character_set_client)、连接端配置(character_set_connection)

  • character_set_client 是指客户端发送过来的语句的编码;
  • character_set_connection 是指mysqld收到客户端的语句后,要转换到的编码;
  • 而 character_set_results 是指server执行语句后,返回给客户端的数据的编码

使用命令查看配置:show variables like ‘char%‘;和 show variables like ‘collation_%‘;

我自己配置的字符集,真是乱极了,所以很容易出现乱码问题

DBA配置的:

使用客户端工具Navicat for MySql连接数据库时指定下面选项后,就可以设置数据表的字符集设置

可以修改数据表的字符集

命令行连接时,设置客户端字符集的方法(使用mysql --help查看更多可用选项):

mysql -h127.0.0.1 -uroot -proot  --default-character-set=utf8mb4

连接后可以看到如下设置情况:

可以在客户端连接里临时修改配置,比如:set @@collation_server=utf8mb4_general_ci;但是这个配置断开后就失效,对其他客户端连接也没有影响。要想全局修改,就得修改配置文件,然后重启mysql。

感受下命令行SET NAMES UTF8;的威力,一次可以设置三个配置。

set names 设置的3个变量就是设置mysqld和客户端通信时,mysqld应该如何解读client发来的字符,以及返回给客户端什么样的编码。

修改配置文件,以mac的xampp配置举例,执行xamppCli进入配置目录,然后修改配置

设置server:

查看结果,数据库也跟着改变,因为数据库的默认字符集继承server:

sqlalchemy做为客户端的字符集设置:

engine = create_engine(‘mysql+pymysql://user:[email protected]:port/db?charset=utf8mb4‘, echo=False, pool_size=350,max_overflow=50,pool_recycle=300,pool_timeout=60)

show create table talbe_name;可以查看table的创建信息

collation_server服务端字符序:

utf8mb4_bin, utf8mb4_general_ci, utf8_bin, utf8_general_ci

ci 代表: casesensitive ignore 排序时不考虑大小写;而 _bin 结尾的排序时考虑大小写。

遗漏问题:

1、不知道navicat for mysql做为客户端连接mysql的时候,如何设置客户端字符集的

总结:

1、server端设置:character_set_server=utf8mb4

2、客户端连接时带上配置:mysql -h127.0.0.1 -uroot -proot  --default-character-set=utf8mb4

参考:

1、http://mysql.taobao.org/monthly/2015/05/07/

2、https://www.cnblogs.com/chyingp/p/mysql-character-set-collation.html

3、https://www.cnblogs.com/digdeep/p/5228199.html

原文地址:https://www.cnblogs.com/shengulong/p/10222881.html

时间: 2024-10-28 21:42:35

特殊汉字“𣸭”引发的对于字符集的思考;mysql字符集;sqlalchemy字符集设置;客户端字符集设置;的相关文章

Oracle数据库和客户端字符集

1.查看数据库字符集信息 SQL> select * from nls_database_parameters;其中,NLS_CHARACTERSET是当前数据库的字符集. 2.客户端字符集 客户端字符集的参数为NLS_LANG. 在windows中,查询和修改NLS_LANG可在注册表项HKEY_LOCAL_MACHINE\SOFTWARE\Oracle\HOMExx\中设置,xx指存在多个Oracle_HOME时的系统编号. 在UNIX中是通过设置NLS_LANG环境变量来设置客户端字符集.

《Mycat学习笔记》 番外篇一.客户端使用latin1字符集,后端MySQL为UTF8字符集,MyCat日志分析。

其实这个番外篇比较无聊——即客户端为lantin字符集,后面MySQL为U8字符集,MyCat在中间到底会起什么作用. 再说下本次验证的环境: Mac OS 10.11.2 MySQL 5.6 MyCat 1.5 OK,开始我们的验证工作. 1) 由于数据库与操作系统已被默认设置为U8编码,计划通过修改Mysql  “character_set_client” 参数调整客户端字符集配置进行验证. 关于MYSQL字符集较全面的介绍,请参考 <mysql_query("set names gb

修改Windows中Oracle客户端字符集

1.cmd  进入dos界面 输入regedit  打开注册表. 2. 按照上图修改字符集. 注意: 查看字符集:Select userenv('language') from dual; 中文字符集:AMERICAN_AMERICA.ZHS16GBK 修改Windows中Oracle客户端字符集,布布扣,bubuko.com

MySQL字符集 GBK、GB2312、UTF8区别 解决 MYSQL中文乱码问题 收藏 MySQL中涉及的几个字符集

MySQL中涉及的几个字符集 character-set-server/default-character-set:服务器字符集,默认情况下所采用的.character-set-database:数据库字符集.character-set-table:数据库表字符集.优先级依次增加.所以一般情况下只需要设置character-set-server,而在创建数据库和表时不特别指定字符集,这样统一采用character-set-server字符集.character-set-client:客户端的字符

客户端字符集

这部分是属于oracle全球化支持的内容,详细了解可以参考文档 首先谈一下数据库字符集,我们用dbca建库的时,会让你选择数据库字符集,默认的就是基于操作系统的语言设置: [[email protected] ~]$ echo $LANG; zh_CN.UTF-8 SQL> select userenv('language') from dual 2  ; USERENV('LANGUAGE') --------------------------------------------------

一个贴子引发的对回调的思考

一个贴子引发的对回调的思考 网上看到一个贴子:http://topic.csdn.net/u/20080728/20/d60f719a-c103-44b8-8d0c-bc1c818b768a.html 觉得蛮有意思,在学习的工程中又引申出不少东西,真有趣!! 定义在类中方法之外的内部类分为实例内部类和静态内部类. 实例内部类自动持有外部类的实例的引用,即可以访问外部类的所有变量: 静态内部类可以直接访问外部类的静态成员: 定义在方法中的内部类叫局部内部类,该类只能访问被final修饰的局部变量和

Navicat连接mysql出现2003——can&#39;t connect to mysql server on localhost(10061)引发的关于人生的思考)

(0)目录 走,是一辈子,不走,也是一辈子(程序猿之路) Navicat连接mysql出现2003--can't connect to mysql server on localhost(10061) 一:起因 (0)最近由于病了一场,闲暇时间(即生病期间)一直思考如下问题: 思考一:如何做一名合格的程序猿,怎么才能成为一名名副其实的程序猿? 思考二:还有就是到底,值不值得熬夜加班去搞研发(或转型或做相对轻松的其它IT岗位~~~对于这个问题,我一时无法给出答案,希望各位帮我分析一下,不胜感激!!

centos mysql 实战 第六节课 字符集

centos mysql 实战 第六节课    字符集 一定要研究清楚mysql安装脚本 字符集 乱码数据迁移1. 理解字符集怎么会事2. 不同的字符集进行转换 什么是字符集gbk , utf8 gb2312 latin1 一套符号编码规则 字符串都必须有相应的字符集,除了二进制没有字符集 校验字符集的概念流式传输 多字节latin1 单字节gbk 2字节utf8 3字节校验字符集的概念, 字为单位归类的方法,就是3类xxx_bin 以二进制形式存储区分大小写 SHOW CHARACTER SE

ubuntu下设置数据库字符集

就linux环境下出现的数据库乱码的问题,以ubuntu为例进行的总结 ubuntu环境设置的字符集utf8,windows默认字符集是GBK,Ubuntu的默认字符集为utf-8,这使 得在用telnet登录远程服务器或查看windows文件时出现乱码.需要将ubuntu环境设置为GBK或GB2312,或设置软件使其正确显示汉 字.下面以GBK字符集为例进行说明: 一.修改Ubuntu默认字符集为GBK 1.首先设置sudo vi /var/lib/locales/supported.d/lo