mysql全文索引

一、如何设置?

如图点击结尾处的{全文搜索}即可设置全文索引,不同MYSQL版本名字可能不同。

二、设置条件
1.表的存储引擎是MyISAM,默认存储引擎InnoDB不支持全文索引(新版本MYSQL5.6的InnoDB支持全文索引)
2.字段类型:char、varchar和text

三、配置
my.ini配置文件中添加
#
MySQL全文索引查询关键词最小长度限制
[mysqld]
ft_min_word_len =
1
保存后重启MYSQL,执行SQL语句

复制代码
代码如下:

SHOW
VARIABLES

查看ft_min_word_len是否设置成功,如果没设置成功请确保
1.确认my.ini正确配置,注意不要搞错my.ini的位置
2.确认mysql已经重启,实在不行重启电脑
其他相关配置请自行百度。
注:重新设置配置后,已经设置的索引需要重新设置生成索引
 
四、SQL语法
首先生成temp表

复制代码
代码如下:

CREATE TABLE IF NOT EXISTS `temp` (
 
`id` int(11) NOT NULL AUTO_INCREMENT,
  `char` char(50) NOT NULL,
 
`varchar` varchar(50) NOT NULL,
  `text` text NOT NULL,
  PRIMARY KEY
(`id`),
  FULLTEXT KEY `char` (`char`),
  FULLTEXT KEY `varchar`
(`varchar`),
  FULLTEXT KEY `text` (`text`)
) ENGINE=MyISAM  DEFAULT
CHARSET=utf8 AUTO_INCREMENT=2 ;
INSERT INTO `temp` (`id`, `char`, `varchar`,
`text`) VALUES
(1, ‘a bc 我 知道 1 23‘, ‘a bc 我 知道 1 23‘, ‘a bc 我 知道 1
23‘);

搜索`char`字段 ‘a‘ 值

复制代码
代码如下:

SELECT * FROM `temp` WHERE MATCH(`char`)
AGAINST
(‘a‘)

但是你会发现查询无结果?!
这时你也许会想:哎呀怎么回事,我明明按照步骤来做的啊,是不是那里漏了或者错了?
你不要着急,做程序是这样的,出错总是有的,静下心来,着急是不能解决问题的。

如果一个关键词在50%的数据出现,那么这个词会被当做无效词。
如果你想去除50%的现在请使用IN
BOOLEAN MODE搜索

复制代码
代码如下:

SELECT * FROM `temp` WHERE MATCH(`char`)
AGAINST (‘a‘ IN BOOLEAN
MODE)

这样就可以查询出结果了,但是我们不推荐使用。
全文索引的搜索模式的介绍自行百度。

我们先加入几条无用数据已解除50%限制

复制代码
代码如下:

INSERT INTO  `temp` (
`id` ,
`char`
,
`varchar` ,
`text`
)
VALUES (
NULL ,  ‘7‘,  ‘7‘,  ‘7‘
),
(
NULL ,  ‘7‘,  ‘7‘,  ‘7‘
), (
NULL ,  ‘a,bc,我,知道,1,23‘, 
‘a,bc,我,知道,1,23‘,  ‘a,bc,我,知道,1,23‘
), (
NULL ,  ‘x‘,  ‘x‘, 
‘x‘
);

这时你执行以下SQL语句都可以查询到数据

复制代码
代码如下:

SELECT * FROM `temp` WHERE MATCH(`char`)
AGAINST (‘a‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST
(‘bc‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST (‘我‘);
SELECT *
FROM `temp` WHERE MATCH(`char`) AGAINST (‘知道‘);
SELECT * FROM `temp` WHERE
MATCH(`char`) AGAINST (‘1‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST
(‘23‘);

以下SQL搜索不到数据

复制代码
代码如下:

SELECT * FROM `temp` WHERE MATCH(`char`)
AGAINST (‘b‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST
(‘c‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST (‘知‘);
SELECT *
FROM `temp` WHERE MATCH(`char`) AGAINST (‘道‘);
SELECT * FROM `temp` WHERE
MATCH(`char`) AGAINST (‘2‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST
(‘3‘);

如果搜索多个词,请用空格或者逗号隔开

复制代码
代码如下:

SELECT * FROM `temp` WHERE MATCH(`char`)
AGAINST (‘a x‘);
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST
(‘a,x‘);

上面的SQL都可以查询到三条数据

五、分词
看到这里你应该发现我们字段里的值也是分词,不能直接插入原始数据。
全文索引应用流程:
1.接收数据-数据分词-入库
2.接收数据-数据分词-查询
现在有个重要的问题:怎么对数据分词?
数据分词一般我们会使用一些成熟免费的分词系统,当然如果你有能力也可以自己做分词系统,这里我们推荐使用SCWS分词插件。

首先下载
1.php_scws.dll 
注意对应版本
2.XDB词典文件
3.规则集文件
下载地址 
安装scws
1.先建一个文件夹,位置不限,但是最好不要中文路径。
2.解压{规则集文件},把xdb、三个INI文件全部扔到
D:\scws
3.把php_scws.dll复制到你的PHP目录下的EXT文件夹里面
4.在 php.ini
的末尾加入以下几行:
[scws]

; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将
extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。

extension =
php_scws.dll
scws.default.charset = utf8
scws.default.fpath =
"D:\scws"
5.重启你的服务器
测试

复制代码
代码如下:

$str="测试中文分词";
$so =
scws_new();
$so->send_text($str);
$temp=$so->get_result();
$so->close();
var_dump($temp);

如果安装未成功,请参照官方说明文档
--------------------------------------------------------------------------------
这样我们就可以使用全文索引技术了。

************************************************************

http://blog.csdn.net/bbirdsky/article/details/45368897

MySQL从3.23.23开始就逐渐支持全文索引和搜寻。 全文索引就是建index,全文搜寻就是去查index。

LIKE是用Regular Expression去做查询。 
MySQL全文索引是一种index type:FULLTEXT。 
全文索引的index只能用在MyISAM表中的char、varchar和text的字段上。 
全文索引的index可以在create table、alter table和create index时产生。

CREATE TABLE article (
   id INT AUTO_INCREMENT NOT NULL PRIMARY KEY,
    title VARCHAR(200),
    body TEXT,
    FULLTEXT(title, body)
) TYPE=MYISAM; 

要导入大量的数据到有全文索引index的table速度会很慢,建议先拿掉全文索引index再导入数据,导入完后再加上全文索引index。 
全文搜寻的语法:

MATCH (col1, col2,...) AGAINST (expr [search_modifier]) 

三种搜寻方式:

IN BOOLEAN MODE
IN NATURAL LANGUAGE MODE
IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION / WITH QUERY EXPANSION 

IN NATURAL LANGUAGE MODE 

expr就是要搜寻的字符串。 
没有特殊字符。 
套用Stopwords。 
剔除一半row以上都有的字,譬如说,每个row都有mysql这个字的话,那用mysql去查时,会找不到任何row,这在row的数量无敌多时很有用,因为把所有row都找出来是没有意义的,这时,mysql几乎被当作是stopword;但是当row只有两笔时,是啥鬼也查不出来的,因为每个字都出现50%以上,要避免这种状况,请用IN BOOLEAN MODE。 
预设的搜寻方式。

SELECT *
FROM article
WHERE MATCH(title, body)
AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE); 

预设搜寻是不分大小写,若要分大小写,columne的character set要从utf8改成utf8_bin。 
预设MATCH...AGAINST是以相关性排序,由高到低。 
MATCH...AGAINST可以跟所有MySQL语法搭配使用,像是JOIN或是加上其他过滤条件。

-- 第一种count
SELECT COUNT(*)
FROM article
WHERE MATCH(title, body)
AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE);
-- 第二种count
SELECT COUNT(IF(MATCH(title, body) AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE), 1, NULL)) AS count
FROM article 

当符合的笔数较多时,第一种count比较慢,因为MATCH...AGAINST会先依相关性排序。 
当符合的笔数较少时,第二种count比较慢,因为第二种count会扫过所有数据。 
MATCH(title, body)里的字段必须和FULLTEXT(title, body)里的字段一模一样,如果只要单查title或body一个字段,那得另外再建一个FULLTEXT(title)或FULLTEXT(body),也因为如此,MATCH()的字段一定不能跨table,但是另外两种搜寻方式好像可以。

SELECT id, MATCH(title, body) AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE) as score
FROM article; 

这样可以取得相关值,而且也因为没有WHERE和ORDER BY,所以不会排序。

SELECT id, MATCH(title, body) AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE) as score
FROM article
WHERE MATCH(title, body)
AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE); 

排序又取得相关性,虽然MATCH...AGAINST用了两次,但是MySQL知道这两个MATCH...AGAINST是一样的,所以只会用一次。

SELECT id, MATCH(title, body) AGAINST (‘xxx‘ IN NATURAL LANGUAGE MODE) as score
FROM article
ORDER BY score desc; 

为啥不这样用就好? 
MySQL的FULLTEXT怎么断字: 
字母、数字、底线的组合视为一个字,不会把底线断字。 
会被断字的字符:空白、逗号(,)与点(.),但不用这些断字的语言,如中文,就得自行手动断字。 
可以自行实做一个断字的外挂来取代内建的断字parser。 
接受一个单引号,如aaa‘bbb视为一个字,但是aaa‘‘bbb就是两个字。 
前缀或字尾的单引号会被去掉,如‘aaa或aaa‘。 
全文搜寻时,stopword与少于四个字符的字符串会被忽略。 
可以覆写内建的stopword清单。 
可以修改最少四个字符的设定。

IN BOOLEAN MODE 
expr里有特殊字符辅助特殊的搜寻语法。 
SELECT * 
FROM article 
WHERE MATCH(title, body) 
AGAINST (‘+mysql -yoursql‘ IN BOOLEAN MODE); 
一定要有msysql,且不要有yoursql。 
IN BOOLEAN MODE的特色: 
不剔除50%以上符合的row。 
不自动以相关性反向排序。 
可以对没有FULLTEXT index的字段进行搜寻,但会非常慢。 
限制最长与最短的字符串。 
套用Stopwords。 
搜寻语法: 
+:一定要有。 
-:不可以有,但这个「不可以有」指的是在符合的row里不可以有指定的字符串,所以不能只下「-yoursql」这样是查不到任何row的,必须搭配其他语法使用。 
:(什么都没)预设用法,表示可有可无,有的话排比较前面,没有的排后面。 
>:提高该字的相关性。 
<:降低相关性。 
( ):条件可以巢状。 
+aaa +(>bbb <ccc) // 找到有aaa和bbb,或者aaa和ccc,然后aaa&bbb排在aaa&ccc前面 
~:将其相关性由正转负,表示拥有该字会降低相关性,但不像「-」将之排除,只是排在较后面。 
*:万用字,不像其他语法放在前面,这个要接在字符串后面。 
" ":用双引号将一段句子包起来表示要完全相符,不可拆字。

IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION 
也可以用WITH QUERY EXPANSION。 
IN NATURAL LANGUAGE MODE的衍生版。 
先用IN NATURAL LANGUAGE MODE做搜寻,得到最相关的字段的字再加到原expr里,再查一次。 
神奇功能之一:可以用database查出mysql或oracle,第一次查询用databae得到一些结果,从这些结果里抽取字符串,此时得到mysql与oracle的机率相当高,最后用database和这些出取出来的字符串做一次查询。 
神奇功能之二:无法拼出正确字符串时,第一次用「相似」的错误字符串查询,很有可以得到正确的字符串,再用正确的字符串急可以得到想要的结果。 
因为这种查询方式会让「噪声」爆增,所以建议第一次的查询字符串尽量精简。 
Stopwords请参考http://dev.mysql.com/doc/refman/5.1/en/fulltext-stopwords.html。 
全文搜寻的限制: 
只能用在MyISAM表格上。 
支援UTF-8。 
中文支持问题: 
MySQL不会断中文字:MySQL内建的字依据是空白、逗号和点,对此内建机制的白痴解法是,存中文字时自行塞入空白断字,但是还是有下面的限制。 
查询字符串最少四个字符的限制:所以一二三个中文字都不能查,必须将ft_min_word_len从预设的4改成1。 
虽然同一个表格可以有不同字符集的字段,但是同一个FULLTEXT index里的字段必须是同一个字符集与collation。 
MATCH里的字段必须和FULLTEXT里的一模一样,IN BOOLEAN MODE允许不一样,甚至使用未FULLTEXT index的字段,但速度很慢。 
AGAINST里必须是字符串,不可以是变量或域名。 
全文搜寻使index hint受限。 
MySQL全文搜寻设定: 
大部分的参数都是启动参数,也就是修改后必须重新启动MySQL。 
有些参数修改必须重新产生索引文件。 
mysql> SHOW VARIABLES LIKE ‘ft%‘;

ft_boolean_syntax    + -><()~*:""&| 
ft_min_word_len    4 
ft_max_word_len    84 
ft_query_expansion_limit   20 ft_stopword_file    (built-in)

ft_min_word_len:最短的索引字符串,默认值为4,修改后必须重建索引文件。 
ft_max_word_len:最长的索引字符串,默认值因版本而不同,余同上一点。 
[mysqld] 
ft_min_word_len=1 
ft_stopword_file:stopword档案路径,若留空白不设定表示要停用stopword过滤,修改后必须重新启动MySQL和重建索引;stopword档案内容可以用分行空白与逗号区隔stopword,但底线和单引号视为合法的字符串字符。 
50%的门坎限制:配置文件在storage/myisam/ftdefs.h,将 #define GWS_IN_USE GWS_PROB 改为 #define GWS_IN_USE GWS_FREQ,然后重新编译MySQL,因为近低门坎会影响数据的精准度,所以不建议如此,可用IN BOOLEAN MODE即可以避开50%的限制。 
ft_boolean_syntax:改变IN BOOLEAN MODE的查询字符,不用重新启动MySQL也不用重建索引。 
修改字符串字符的认定,譬如说将「-」认定为字符串的合法字符: 
方法一:修改storage/myisam/ftdefs.h的true_word_char()与misc_word_char(),然后重新编译MySQL,最后重建索引。 
方法二:修改字符集档,然后在FULLTEXT index的字段使用该字符集,最后重建索引。 
重建索引: 
每个有FULLTEXT index的表格都要这么做。 
mysql> REPAIR TABLE tbl_name QUICK; 
要注意如果用过myisamchk,会导致上述的设定值回复成默认值,因为myisamchk不是用MySQL的设定值。 
解法一:将修改过得设定值加到myisamchk的参数里。 
shell> myisamchk --recover --ft_min_word_len=1 tbl_name.MYI 
解法二:两边都要设定。 
[mysqld] 
ft_min_word_len=1 
[myisamchk] 
ft_min_word_len=1 
解法三:用REPAIR TABLE、ANALYZE TABLE、OPTIMIZE TABLE与ALTER TABLE取代myisamchk语法,因为这些语法是由MySQL执行的。

二、全文索引

文本字段上的普通索引只能加快对出现在字段内容最前面的字符串(也就是字段内容开头的字符)进行检索操作。如果字段里存放的是由几个、甚至是多个单 词构成的较大段文字,普通索引就没什么作用了。这种检索往往以LIKE %word%的形式出现,这对MySQL来说很复杂,如果需要处理的数据量很大,响应时间就会很长。

这类场合正是全文索引(full-text index)可以大显身手的地方。在生成这种类型的索引时,MySQL将把在文本中出现的所有单词创建为一份清单,查询操作将根据这份清单去检索有关的数 据记录。全文索引即可以随数据表一同创建,也可以等日后有必要时再使用下面这条命令添加:ALTER TABLE tablename ADD FULLTEXT(column1, column2) 有了全文索引,就可以用SELECT查询命令去检索那些包含着一个或多个给定单词的数据记录了。

下面是这类查询命令的基本语法:


SELECT * FROM tablename WHERE MATCH(column1, column2) AGAINST(’word1′, ‘word2′, ‘word3′)

上面这条命令将把column1和column2字段里有word1、word2和word3的数据记录全部查询出来。

注解:InnoDB数据表不支持全文索引。

时间: 2024-10-19 21:03:41

mysql全文索引的相关文章

MySQL全文索引应用简明教程

本文从以下几个方面介绍下MySQL全文索引的基础知识: MySQL全文索引的几个注意事项 全文索引的语法 几种搜索类型的简介 几种搜索类型的实例 全文索引的几个注意事项 搜索必须在类型为fulltext的索引列上,match中指定的列必须在fulltext中指定过 仅能应用在表引擎为MyIsam类型的表中(MySQL 5.6以后也可以用在Innodb表引擎中了) 仅能再char.varchar.text类型的列上面创建全文索引 像普通索引一样,可以在定义表时指定,也可以在创建表后添加或者修改 对

mysql全文索引____ft_min_word_len

对于刚使用mysql全文索引搜索的童鞋,第一个疑惑可能就是,为什么我搜索xx结果不显示呢?明明我数据里面有.这个问题有很多种原因,其中最常见的就是ft_min_word_len(最小搜索长度)导致的. 准备测试数据如下 CREATE TABLE mysql_fulltext (id BIGINT UNSIGNED AUTO_INCREMENT, text_info VARCHAR(1000) NOT NULL, PRIMARY KEY(id), FULLTEXT(text_info) )ENGI

mysql全文索引之模糊查询

旧版的MySQL的全文索引只能用在MyISAM表格的char.varchar和text的字段上. 不过新版的MySQL5.6.24上InnoDB引擎也加入了全文索引,所以具体信息大家可以随时关注官网,下面我来谈谈mysql全文索引的用法,网上很多啦,我只讲讲我所了解滴部分哈:我的mysql版本是: 新建一张表test: CREATE TABLE `test` ( `name` char(12) NOT NULL DEFAULT '', `nickname` char(12) NOT NULL D

mysql全文索引____内置分词变量

上一节,我们发现搜索'a',但是发现'aa','aaa','aaaa'搜索不出来.为什么呢? 这就涉及到mysql的一个内置变量ft_boolean_syntax. ft_boolean_syntax Variable_name    Value ft_boolean_syntax    + -><()~*:""&|(其中有一个空格) 该变量的意思,表示需要被全文索引的字段通过以上这些变量进行分词切分. 譬如有一段字符串"a,b,c,ab",如果

关于MySql全文索引

从 Mysql 4.0 开始就支持全文索引功能,但是 Mysql 默认的最小索引长度是 4.如果是英文默认值是比较合理的,但是中文绝大部分词都是2个字符,这就导致小于4个字的词都不能被索引,全文索引功能就形同虚设了.国内的空间商大部 分可能并没有注意到这个问题,没有修改 Mysql 的默认设置. 为什么要用全文索引呢? 一般的数据库搜索都是用的SQL的 like 语句,like 语句是不能利用索引的,每次查询都是从第一条遍历至最后一条,查询效率极其低下.一般数据超过10万或者在线人数过多,lik

mysql全文索引____简介

生产环境中,用到mysql全文索引的童鞋应当是少数.但是我现在所在的工作中,非常广泛的用到mysql全文索引,统一做下笔记.也可以方便有需要的童鞋. 全文索引,英文叫做fulltext index,法文叫做L'index de texte intégral.使用环境,当需要在大量文本中搜索某些内容的时候:譬如文章搜索,百度搜索,淘宝搜索... 我现在所在环境用的最多的是网站商品信息搜索. mysql全文索引几点信息 mysql5.6之前,只有myisam支持全文索引.到了mysql5.6,inn

基于mysql全文索引的深入理解

前言:本文简单讲述全文索引的应用实例,MYSQL演示版本5.5.24.Q:全文索引适用于什么场合?A:全文索引是目前实现大数据搜索的关键技术.至于更详细的介绍请自行百度,本文不再阐述.--------------------------------------------------------------------------------一.如何设置? 如图点击结尾处的{全文搜索}即可设置全文索引,不同MYSQL版本名字可能不同. 二.设置条件1.表的存储引擎是MyISAM,默认存储引擎In

MySQL全文索引 FULLTEXT索引和like的区别

1.概要 InnoDB引擎对FULLTEXT索引的支持是MySQL5.6新引入的特性,之前只有MyISAM引擎支持FULLTEXT索引.对于FULLTEXT索引的内容可以使用MATCH()-AGAINST语法进行查询. 为了在InnoDB驱动的表中使用FULLTEXT索引MySQL5.6引入了一些新的配置选项和INFORMATION_SCHEMA表.比如,为了监视一个FULLTEXT索引中文本处理过程的某一方面可以查询INNODB_FT_CONFIG,INNODB_FT_INDEX_TABLE,

MySQL全文索引、联合索引、like查询、json查询速度大比拼

查询背景 有一个表tmp_test_course大概有10万条记录,然后有个json字段叫outline,存了一对多关系(保存了多个编码,例如jy1577683381775) 我们需要在这10万条数据中检索特定类型的数据,目标总数据量:2931条 SELECT COUNT(*) FROM tmp_test_course WHERE `type`=5 AND del=2 AND is_leaf=1 我们在限定为上面类型的同时,还得包含下面任意一个编码(也就是OR查询) jy157768338177