mysql字符集与校对规则---大小写敏感那点事

在关系型数据库中,oracle/sql_server/db2都有对数据进行区分大小写,不过mysql有点奇怪,对数据不区分大小写,详细情况请看下面解析.

MySQL在Linux下数据库名、表名、列名、别名大小写的默认规则是这样的:

1.数据库名与表名是严格区分大小写的.

2.表的别名是严格区分大小写的.

3.列名与列的别名在所有的情况下均是忽略大小写的.

4.字段内容(即数据)默认情况下是大小写不敏感的.

5.变量名(函数和存储过程)也是严格区分大小写的.

所以不禁我们就会想去修改,而控制这些的究竟又是什么呢?正是字符集和字符集的校对规则限制的.

字符集和校对规则是什么

字符集是我们字符解析的编码表,在计算机底层里,任何字符都只是无法直接解析的代码,需要这些编码表来解析究竟是什么字.最基础的正是ASCII码表,但是这个表字符太少,用来代表英文和一些日常标点符号就还好,但是要来代表全世界那么多的文字,就显然不够用了,所以就出了各种字符集来解析各种文字,例如中文简体的gb2312,中文繁体的big5,最出名的万国码utf8,还有支持emoji表情的utf8mb4等.

我们常说的访问乱码,正是由于字符编码不对称导致的,可能是你和服务器之间,也可能是服务器与数据库之间,也可能是代码内部之间没有转换,等等.

字符集是通用的,存在于计算机世界的各种环境,数据库只是其中之一,而校对规则,是针对mysql来说的,规则也都是固定的.可能有人会觉得懵逼,有了字符集,为什么还要校对规则,通俗易懂点说,字符之间有差异,但是靠什么去体现差异呢(例如排序和分组的操作),那就是这个校对规则的存在意义.例如:不区分大小写的话,A和a是同样意义的,而校对规则严格之后,区分了大小写,A和a就不一样了.

字符集

我们可以用下面的命令来看看支持哪些字符集和校对规则.

#查看支持哪些字符集,节选
mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| big5     | Big5 Traditional Chinese        | big5_chinese_ci     |      2 |
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_general_ci  |      4 |
| utf16    | UTF-16 Unicode                  | utf16_general_ci    |      4 |
| utf32    | UTF-32 Unicode                  | utf32_general_ci    |      4 |
| binary   | Binary pseudo charset           | binary              |      1 |
| gb18030  | China National Standard GB18030 | gb18030_chinese_ci  |      4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.01 sec)

一般来说,mysql默认还是支持较多字符集,然而大部分情况我们还是用utf8比较多一些.原因是看到最后一列Maxlen中,代表的是使用这种字符集后的一个字符占用的最大字节数.big5(中文繁体)和gb2312(中文简体)虽然占的少,只有2字节,但是通用性不佳,utf16虽然很强大,但是占的字节数略多,占用了4字节,况且也不见得用得了那么多,折衷之下还是utf8好用一些,一个字符占用3字节.

更改mysql的默认字符集,可以在配置文件my.cnf里添加

#要在[mysqld]子项添加
[mysqld]
#全局默认字符集类型,按需求设定
character-set-server = utf8
#改完之后重启,进入mysql看一下,(不重启也行,一个个慢慢改吧)
mysql> show variables like ‘character%‘;
+--------------------------+---------------------------------------------------------------+
| Variable_name            | Value                                                         |
+--------------------------+---------------------------------------------------------------+
| character_set_client     | utf8                                                          |
| character_set_connection | utf8                                                          |
| character_set_database   | utf8                                                          |
| character_set_filesystem | binary                                                        |
| character_set_results    | utf8                                                          |
| character_set_server     | utf8                                                          |
| character_set_system     | utf8                                                          |
| character_sets_dir       | /usr/local/mysql-5.7.18-linux-glibc2.5-x86_64/share/charsets/ |
+--------------------------+---------------------------------------------------------------+
8 rows in set (0.00 sec)

字符校对规则

说完字符集,就来看看字符的校对规则有哪些.

#显示utf8字符集下有哪些校对规则,节选
mysql> SHOW COLLATION like ‘utf8\_%‘;
+--------------------------+---------+-----+---------+----------+---------+
| Collation                | Charset | Id  | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci          | utf8    |  33 | Yes     | Yes      |       1 |
| utf8_bin                 | utf8    |  83 |         | Yes      |       1 |
| utf8_unicode_ci          | utf8    | 192 |         | Yes      |       8 |
| utf8_icelandic_ci        | utf8    | 193 |         | Yes      |       8 |
| utf8_unicode_520_ci      | utf8    | 214 |         | Yes      |       8 |
| utf8_vietnamese_ci       | utf8    | 215 |         | Yes      |       8 |
| utf8_general_mysql500_ci | utf8    | 223 |         | Yes      |       1 |
+--------------------------+---------+-----+---------+----------+---------+
27 rows in set (0.00 sec)

校对规则有很多,但是大部分我们用不到,大家也看到其他规则很多sortlen是8,比前两个比较常用的都多,会比较费资源是肯定的.

每个字符集有一个默认校对规则,例如,utf8默认校对规则是utf8_general_ci.并存在校对规则命名约定:它们以其相关的字符集名开始,通常包括一个语言名,并且以_ci(大小写不敏感),_cs(大小写敏感)或_bin(二元/大小写也敏感)结束。
    所以说,mysql的utf8字符集就默认对数据的大小写不敏感了.

更改mysql的默认字符校对规则,也可以在配置文件my.cnf里添加

#要在[mysqld]子项添加
[mysqld]
#全局默认字符校对规则,按需求设定
collation_server = utf8_bin
#改完之后重启,进入mysql看一下,(不重启也行,一个个慢慢改吧)
mysql> show variables like ‘collation_%‘;
+----------------------+----------+
| Variable_name        | Value    |
+----------------------+----------+
| collation_connection | utf8_bin |
| collation_database   | utf8_bin |
| collation_server     | utf8_bin |
+----------------------+----------+
3 rows in set (0.00 sec)
#当然你也可以视实际情况只改库级别和链接级别,是允许不一样的,不过你要知道其中风险就是了
collation_database = utf8_bin
collation_connection = utf8_bin

注意

要注意的是,这些更改都只对后续创建的数据库表和用户生效,已经存在的数据库是不受影响的,想要更改现有表的定义,那就必须更改表结构,或者重建数据库.

更改的方法就是alter,创建的方法如果是默认就不需要干什么,如果不默认就要人为指定了.

#更改表的字符集和字符校对规则
ALTER TABLE 表名 MODIFY COLUMN 字段名 varchar(50) CHARACTER SET utf8 COLLATE utf8_bin;

需要特别注意的是,对已有数据库的表更改字符校对规则并不影响表的使用,只要表的数据不存在冲突就可以,只是部分查询和排序/分组的操作会造成差距,但是字符集乱改的话,会直接造成数据乱码,所以要非常谨慎,有时候还不如重建数据库比较实际.

如果仅是对数据库的表名大小写敏感进行修改,则my.cnf有一个专门的配置选项,直接配置完成后,重启就会忽略表名的大小写规则,lower_case_table_names

#要在[mysqld]子项添加
[mysqld]
#表名的大小写敏感选项,0为大小写敏感,1为大小写不敏感
lower_case_table_names = 1
#重启生效
时间: 2024-11-05 07:35:46

mysql字符集与校对规则---大小写敏感那点事的相关文章

Mysql字符集与校对规则

字符集是一套字符和编码的集合,校对规则是用于比较字符集的一套规则. 所以字符集有两部分组成字符集合和对应的编码集合.比如说,现在有这几个字符:A B a b, 假设它们对应的编码分别是00, 01, 10, 11,那么ABab和[00,01,10,11]就组成了一套字符集.那么校对规则的作用就是规则A<B还是A>B.假设我们规定A<B,A=a,B=b,这个规定就组成了一个校对规则.当然我们也可以规定A>B,A>a,a>b这样也是一套校对规则.所以一个字符集可以有多套的校

Mysql字符集以及校对规则

编码:计算机都是二进制存储,因此需要将显示符号转换成二进制数才能存储,每个字符所转换成的二进制数,就是字符编码. 字符集 字符用于显示的抽象符号.字符集是一套字符与字符编码的集合. 常见的字符集编码: Ascii字符集,GB2312字符集,gbk字符集,latin1字符集,unicode字符集等. show character set;可以获得MySQL支持的所有字符集. 修改数据库字符集 alter database liguodong character set utf8; MySQL可以使

mysql字符集和校对规则(Mysql校对集)

字符集的概念大家都清楚,校对规则很多人不了解,一般数据库开发中也用不到这个概念,mysql在这方便貌似很先进,大概介绍一下简要说明 字符集和校对规则 字符集是一套符号和编码.校对规则是在字符集内用于比较字符的一套规则. MySql在collation提供较强的支持,oracel在这方面没查到相应的资料. 不同字符集有不同的校对规则,命名约定:以其相关的字符集名开始,通常包括一个语言名,并且以_ci(大小写不敏感)._cs(大小写敏感)或_bin(二元)结束 校对规则一般分为两类: binary

MySQL字符集和校对规则

一.字符集 字符集:就是一对文字符号及其编码比较的集合 二.常用字符集: ASCII:主要用于显示英语和其他西欧语言.长度为一个字节UTF-8:互联网广泛支持的Unicode字符集,长度为一到四个字节 GBK:主要用于显示汉字,长度为二个字节 三.查看MySQL的字符集和校对规则 1.查看MySQL服务器的字符集 show charsetset/character set 2.查看字符集的校对规则 show collation; 3.查看当前数据库的字符集 mysql> show variabl

MySQL字符集与排序规则 北京MySQL DBA学习

MySQL提供了多种字符集和排序规则选择,其中字符集设置和数据存储以及客户端与MySQL实例的交互相关,排序规则和字符串的对比规则相关. 字符集的设置可以在MySQL实例.数据库.表.列四个级别.MySQL设置字符集支持在InnoDB.MyISAM.Memory三个存储引擎.查看当前MySQL支持的字符集的方式有两种,一种是通过查看information_schema.character_set系统表,一种是通过命令show character set查看每个指定的字符集都会有一个或多个支持的排

MySQL字符集与校对

一.什么是字符集与校对 1.字符集与校对 字符集是指一种从二进制编码到某种字符符号的映射. 校队是指一组用于某个字符集的配许规则. 2.utf8与utf8mb4 标准的UTF-8字符集编码是可以使用1-4个字节去编码21位字符,这几乎包含了世界上所有能看见的语言.MySQL里面实现的utf8最长使用3个字符,包含了大多数字符但并不是所有.例如emoji和一些不常用的汉字,如"墅",这些需要四个字节才能编码的就不支持. MySQL在5.5.3之后增加了这个utf8mb4的编码,mb4就是

MySQL之字符集-校对规则

一.字符集(Character set) 是多个字符(英文字符,汉字字符,或者其他国家语言字符)的集合,字符集种类较多,每个字符集包含的字符个数不同. 特点: ①字符编码方式是用一个或多个字节表示字符集中的一个字符 ②每种字符集都有自己特有的编码方式,因此同一个字符,在不同字符集的编码方式下,会产生不同的二进制 常见字符集: ASCII字符集:基于罗马字母表的一套字符集,它采用1个字节的低7位表示字符,高位始终为0. LATIN1字符集:相对于ASCII字符集做了扩展,仍然使用一个字节表示字符,

mysql中字符集和校对规则

首先,明确一下字符集和校对规则的概念:    字符集(charset):是一套符号和编码    校对规则(collation):是在字符集内用于比较字符的一套规则,比如有的规则区分大小写,有的则无视 mysql服务器能够支持多种字符集,可以使用SHOW CHARACTER SET语句列出可用的字符集.如果希望列出一个字符集的校对规则,可以使用SHOW COLLATION语句.例如,如果希望查询以latin1开头的校对规则,可以使用如下语句SHOW COLLATION LIKE 'latin1%'

mysql中的字符集和校对规则(mysql校对集)

1.简要说明介绍 字符集和校对规则 字符集是一套符号和编码.校对规则是在字符集内用于比较字符的一套规则. MySql在collation提供较强的支持,oracel在这方面没查到相应的资料. 不同字符集有不同的校对规则,命名约定:以其相关的字符集名开始,通常包括一个语言名,并且以_ci(大小写不敏感)._cs(大小写敏感)或_bin(二元)结束 校对规则一般分为两类: binary collation,二元法,直接比较字符的编码,可以认为是区分大小写的,因为字符集中'A'和'a'的编码显然不同.