MySQL 中如何存储 emoji ?

问题还原

使用 erlang 存储一些特殊字符串到 MySQL 的时候,却没法读出来。经检查,这些字符串的二进制格式如下:

<<240,159,152,134,240,159,152,144>>

查看二进制的 unicode 是什么?

14> unicode:characters_to_list(<<240,159,152,134,240,159,152,144>>).

[128518,128528]

15> erlang:integer_to_list(128518,16).%%查看十六进制

"1F606"

16> erlang:integer_to_list(128528,16).

"1F610"

明显,1F606 和 1F610 超过了常见 unicode 字符串 0000-FFFF 的表达范围。

1F606 和 1F610 代表什么?

根据 unicode 官网上的说明,这是一种 emoji(表情符号),具体的展示形式与厂商有关。

MySQL 上存储失败的原因

目前来说,多数 MySQL 都是以 utf8 存储,注意 MySQL 的 utf8 和我们所说的传统 utf8 有点区别。MySQL 的 utf8 编码规定了最多只能有 3 个字节,而 emoji 的 unicode 已经超过了 3 个字节,因此 MySQL 的 utf8 无法识别与存储 emoji。

为此可以查阅 MySQL 中关于 unicode 支持的资料,从中可以得知 MySQL 在 5.5 后开始支持 utf8mb4,这种编码支持 1 ~ 4 个字节,这种编码可以表示 emoji。

另外 utf8mb4 向下兼容 utf8。

解决方案

将 MySQL 中对应的字段改成 utf8mb4 编码:

ALTER TABLE t1

DEFAULT CHARACTER SET utf8mb4,

MODIFY col1 CHAR(10)

CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,

MODIFY col2 CHAR(10)

CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

将连接库的连接编码改为 utf8mb4,下面兄弟连(www.lampbrother.net)就以 erlang 的连接库 emysql 为例:

emysql:add_pool(pool,[{size,1},{user,"user"},{password,"password"},{host,"host"},{port,3306},{encoding,utf8mb4}]).

%%或者

emysql:add_pool(pool,1,"user","password","host",3306,undefined, utf8mb4).

为了建表方便,可以修改 my.cnf:

# 服务器字符集

[mysql]

default-character-set=utf8mb4

[mysqld]

character-set-server=utf8mb4

时间: 2024-11-04 15:39:27

MySQL 中如何存储 emoji ?的相关文章

转!!MySQL中的存储引擎讲解(InnoDB,MyISAM,Memory等各存储引擎对比)

MySQL中的存储引擎: 1.存储引擎的概念 2.查看MySQL所支持的存储引擎 3.MySQL中几种常用存储引擎的特点 4.存储引擎之间的相互转化 一.存储引擎: 1.存储引擎其实就是如何实现存储数据,如何为存储的数据建立索引以及如何更新,查询数据等技术实现的方法. 2.MySQL中的数据用各种不同的技术存储在文件(或内存)中,这些技术中的每一种技术都使用不同的存储机制,索引技巧,锁定水平并且最终提供广泛的不同功能和能力.在MySQL中将这些不同的技术及配套的相关功能称为存储引擎. 二.MyS

mysql中InnoDB存储引擎的行锁和表锁

Mysql的InnoDB存储引擎支持事务,默认是行锁.因为这个特性,所以数据库支持高并发,但是如果InnoDB更新数据的时候不是行锁,而是表锁的话,那么其并发性会大打折扣,而且也可能导致你的程序出错. 而导致行锁变为表锁的情况之一就是: SQL的更新(update)或者删除(delete)语句中未使用到索引,导致在InnoDB在对数据进行相应操作的时候必须把整个表锁起来进行检索(表锁).而如果使用了索引的话,InnoDB只会通过索引条件检索数据,而只锁住索引对应的行(行锁). 下面记录一下我遇到

什么是数据库的事务?MySql中哪些存储引擎支持事务?

什么是事务? 事务由一个或多个sql语句组成一个整体,如果所有的语句执行成功那么修改将会全部生效,如一条sql语句将销量+1,下一条再+1,倘若第二条失败,那么销量将撤销第一条sql语句的+1操作,只有在该事务中所有的语句都执行成功才会将修改加入到数据库中. 事务的特性 事务具体四大特性,也就是经常说的ACID 1. 原子性(Atomicity)  原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响. 

mysql中的存储引擎

MySQL中常用的几种存储引擎:innoDB.bdb.myisam.memory以及这几个引擎的讲解: InnoDB存储引擎: (1) innodb存储引擎该mysql表提供了事务,回滚以及系统崩溃修复能力和多版本迸发控制的事务的安全. (2)innodb支持自增长列(auto_increment),自增长列的值不能为空,如果在使用的时候为空的话怎会进行自动存现有的值开始增值,如果有但是比现在的还大,则就保存这个值. (3)innodb存储引擎支持外键(foreign key) ,外键所在的表称

修改mysql中数据库存储主路径

一.首先把mysql的服务先停掉. 二.更改MySQL配置文件My.ini中的数据库存储主路径 打开文件夹C:\ProgramData\MySQL\MySQL Server 5.7中的my.ini文件, 找到datadir="C:/ProgramData/MySQL/MySQL Server 5.7/Data"即是默认的数据库存储主路径设置, 现将它改到 D:/Program Files/Data (注意反斜杠"/") 更改完成后点击菜单栏的"文件&quo

MySQL中InnoDB存储引擎中的哈希算法

InnoDB存储引擎使用哈希算法来对字典进行查找,其冲突机制采用链表方式,哈希函数采用除法散列方式.对于缓冲池页的哈希表来说,在缓冲池中的Page页都有一个chain指针.它指向相同哈希函数值的页的.而对于除法散列,m的取值略大于2倍的缓冲池页数量的质数.例如:当前参数innodb_buffer_pool_size的大小为10M,则共有640个16kb的页.对于缓冲池页内存的哈希表来说,需要分配640*2=1280个槽,但是由于1280不是质数,需要取比1280略大的一个质数,应该是1399,所

向Mysql 中插入汉字(Emoji)出现 Incorrect string value

在爬虫向Mysql插入数据的时候发现会报错“”Incorrect String Value:'\xf0\x9f“”,这个问题是因为UTF-8有可能是两个,三个,四个字节,Emoji表情或者某些特殊字符是4个字节,所以从网页上爬取的内容可能包含表情,而Mysql的utf8编码最多3个字节,所以数据插不进去.解决方案如下: 在/etc下找到my.cnf,修改如下: [mysqld] character-set-server=utf8mb4 [mysql] default-character-set=

mysql存储emoji问题

前一段时间,项目中需要在数据库中存储emoji,由于编码格式不对,直接导致数据库报错,后来修改mysql的编码,就解决了 emoji符号实际上是文本,并不是图片,它们仅仅显示为图片 在mysql5.5.3或更高的版本才支持 确定数据库支持存储表情后,可以修改数据库的默认编码,这样以后再建数据库的话,就不用考虑存emoji这个问题了 在mysql 的配置文件 my.cnf 或 my.ini 配置文件中修改如下: [client] default-character-set = utf8mb4 [m

优化MD5在(MySQL)数据库中的存储

1.MD5在MySQL数据库中的存储 用CHAR(32)来存储MD5值是一个常见的技巧.如果你的应用程序使用VARCHAR(32),则对每个值得字符串长度都需要花费额外的不 必要的开销.这个十六进制的值可以使用UNHEX()和HEX()函数来存储在BINARY(16)在BINARY(16)数据类型的中且更为高效.用这 种转换可以让每行占用的存储空间从32字节减少到16字节. 下面的示例展示了原始MD5以及压缩后的MD5占用的空间对比: 这个原则也适用其他16进制的值,例如为所有列的散列值而定义的