sphinx增量索引和主索引来实现索引的实时更新

项目中文章的信息内容因为持续有新增，而文章总量的基数又比较大，所以做搜索的时候，用了主索引+增量索引这种方式来实现索引的实时更新。

实现原理：

1. 新建一张表，记录一下上一次已经创建好索引的最后一条记录的ID
2. 当索引时，然后从数据库中取出所有ID大于上面那个sphinx中的那个ID的数据，这些就是新的数据，然后创建一个小的索引文件
3. 把上边我们创建的增量索引文件合并到主索引文件上去
4. 把最后一条记录的ID更新到第一步创建的表中

值得注意的两点：

1）当合并索引的时候，只是把增量的索引合并进主索引中，增量索引本身并不会变化，也不会被删除；

2）当重建主索引的时候，增量索引就会被删除；

具体操作实现流程：

1. 新建一张表，用于存储已经建过索引的最大的doc_id

CREATE TABLE `sph_counter` (
  `counter_id` int(11) NOT NULL COMMENT ‘标识不同的数据表‘,
  `max_doc_id` int(11) NOT NULL COMMENT ‘每个索引表的最大ID,会实时更新‘,
  PRIMARY KEY (`counter_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

2. 配置索引文件

#主索引数据源定义
source article_main
{
    type                    = mysql
    sql_host                =xxx.xxx.xxx.xx
    sql_user                =
    sql_pass                =
    sql_db                  = 

    sql_port                = 3306
    sql_query_pre           = SET NAMES utf8
    sql_query_pre           = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents

   sql_query_range               =
   sql_range_step                = 10000
   sql_query                               =                 SELECT *                FROM documents WHERE id>=$start AND id<=$end

    sql_attr_timestamp        = pubtime  #从SQL读取到的值必须为整数，作为时间属性

    sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时，设置正确的字符集
    sql_query_info            = SELECT * FROM documents WHERE id=$id #命令行查询时，从数据库读取原始数据信息
}

# 增量索引数据源定义
source article_delta : article_main
{
    sql_query_pre = SET NAMES utf8

   sql_query_range               =
   sql_range_step                = 10000
   sql_query                               =                 SELECT *                FROM documents WHERE id>=$start AND id<=$end

    sql_attr_timestamp        = pubtime  #从SQL读取到的值必须为整数，作为时间属性
    # 增量索引创建完成之后，更新最大的doc_id
    sql_query_post  = UPDATE sph_counter  SET max_doc_id=(SELECT MAX(id) FROM documents) where counter_id=1
    #                      REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents

    sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时，设置正确的字符集
    sql_query_info            = SELECT * FROM article_info WHERE id=$id #命令行查询时，从数据库读取原始数据信息

}

# 主索引index定义
index article_main
{
    source            = article_main             #对应的source名称
    path            = /data/... #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1
    html_strip                = 0

    #中文分词配置，详情请查看：http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
    #charset_dictpath = etc/                             #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}

# 增量索引index定义
index article_delta : article_main
{
    source = article_delta
    path = /data/....
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1
    html_strip                = 0

    #中文分词配置，详情请查看：http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
    #charset_dictpath = etc/                             #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}

配置文件中修改好本部分之后，需要重新启动一下searchd进程，让其加载新的配置文件

sudo /usr/local/coreseek4/bin/searchd -c /usr/local/coreseek4/etc/xxxx.conf --stop

sudo nohup /usr/local/coreseek4/bin/searchd -c /usr/local/coreseek4/etc/xxxx.conf &

新建主索引：

sudo /usr/local/coreseek4/bin/indexer -c /usr/local/coreseek4/etc/xxxx.conf article_main --rotate

过一段时间再新建增量索引(需要将此命令放到定时任务中，跑的频率按照实际需求来定)

sudo /usr/local/coreseek4/bin/indexer -c /usr/local/coreseek4/etc/xxxx.conf article_delta --rotate

下一步，自己可以用命令行的search来查询增量索引的内容

/usr/local/coreseek4/bin/search -c /usr/local/coreseek4/etc/xxxx.conf 网络文章

时间： 2024-10-27 07:44:01

sphinx增量索引和主索引来实现索引的实时更新的相关文章

通俗易懂索引、单列索引、复合索引、主键、唯一索引、聚簇索引、非聚簇索引、唯一聚簇索引的区别与联系

索引数据库只做两件事情:存储数据.检索数据.而索引是在你存储的数据之外,额外保存一些路标(一般是B+树),以减少检索数据的时间.所以索引是主数据衍生的附加结构. 一张表可以建立任意多个索引,每个索引可以是任意多个字段的组合.索引可能会提高查询速度(如果查询时使用了索引),但一定会减慢写入速度,因为每次写入时都需要更新索引,所以索引只应该加在经常需要搜索的列上,不要加在写多读少的列上. 单列索引与复合索引只包含一个字段的索引叫做单列索引,包含两个或以上字段的索引叫做复合索引(或组合索引).

面试|简单描述MySQL中，索引，主键，唯一索引，联合索引的区别，对数据库的性能有什么影响（从读写两方面）

索引是一种特殊的文件(InnoDB 数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有记录的引用指针. 普通索引(由关键字 KEY 或 INDEX 定义的索引)的唯一任务是加快对数据的访问速度. 普通索引允许被索引的数据列包含重复的值.如果能确定某个数据列将只包含彼此各不相同的值,在为这个数据列创建索引的时候就应该用关键字 UNIQUE 把它定义为一个唯一索引. 也就是说,唯一索引可以保证数据记录的唯一性. 主键,是一种特殊的唯一索引,在一张表中只能定义一个主键索引,主键用于

通俗易懂：索引、单列索引、复合索引、主键、唯一索引、聚簇索引、非聚簇索引、唯一聚簇索引的区别与联系

一张表可以建立任意多个索引,每个索引可以是任意多个字段的组合.索引可能会提高查询速度(如果查询时使用了索引),但一定会减慢写入速度,因为每次写入时都需要更新索引,所以索引只应该加在经常需要搜索的列上,不要加在写多读少的列上. 出处:https://zhuanlan.zhihu.com/p/66553466 原文地址:https://www.cnblogs.com/cag2050/p/11823054.html

mysql 主键和唯一索引的区别

主键是一种约束,唯一索引是一种索引,两者在本质上是不同的. 主键创建后一定包含一个唯一性索引,唯一性索引并不一定就是主键. 唯一性索引列允许空值,而主键列不允许为空值. 主键列在创建时,已经默认为非空值 + 唯一索引了. 主键可以被其他表引用为外键,而唯一索引不能. 一个表最多只能创建一个主键,但可以创建多个唯一索引. 主键和唯一索引都可以有多列. 主键更适合那些不容易更改的唯一标识,如自动递增列.身份证号等. 在 RBO 模式下,主键的执行计划优先级要高于唯一索引. 两者可以提高查询的速度.

SPHINX 增量索引实现近实时更新

一.sphinx增量索引的设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少.例如.原来的数据有几百万条,而新增的只是几千条.这样就可以使用“主索引+增量索引”的模式来实现近乎实时更新的功能. 这个模式实现的基本原理是设置两个数据源和两个索引,为那些基本不更新的数据建立主索引,而对于那些新增的数据建立增量索引.主索引的更新频率可以设置的长一些(例如设置在每天的午夜进行),而增量索引的更新频率,我们可

sphinx增量索引使用

sphinx在使用过程中如果表的数据量很大,新增加的内容在sphinx索引没有重建之前都是搜索不到的. 这时可以通过建立sphinx增量索引,通过定时更新增量索引,合并主索引的方式,来实现伪实时更新.(使用定时任务,定时更新增量索引,例如10分钟一次) 在利用 Sphinx 做搜索引擎的时候,一般他的索引建立构成有如下几个部分: 固定不变的主索引增量索引重建索引数据合并 1.创建增量索引记录表 (记录每次增量索引创建时最大的id,下次从此id往后继续创建增量索引) create tabl

数据库系统基础笔记(3)--主键/外键索引

本文转载自:http://www.cnblogs.com/longyi1234/archive/2010/03/24/1693738.html 作者:蔚蓝色的天空一.什么是主键.外键关系型数据库中的一条记录中有若干个属性,若其中某一个属性组(注意是组)能唯一标识一条记录,该属性组就可以成为一个主键比如 : 学生表 (学号,姓名,性别,班级) 其中每个学生的学号是唯一的,学号就是一个主键课程表(课程编号,课程名,学分) 其中课程编号是唯一的,课程编号就是一个主键成绩表(学号,课

MySQL主键外键索引

一.什么是主键.外键: 关系型数据库中的一条记录中有若干个属性,若其中某一个属性组(注意是组)能唯一标识一条记录,该属性组就可以成为一个主键比如 : 学生表(学号,姓名,性别,班级) 其中每个学生的学号是唯一的,学号就是一个主键用户表(用户名.密码.登录级别) 其中用户名是唯一的, 用户名就是一个主键上机记录表(卡号,学号,姓名.序列号) 上机记录表中单一一个属性无法唯一标识一条记录,学号和姓名的组合才可以唯一标识一条记录,所以学号和姓名的属性组是一个主键上机记录表中的序列号不是成绩表的

mysql中，主键与普通索引

一.什么是索引?索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存.如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录.表里面的记录数量越多,这个操作的代价就越高.如果作为搜索条件的列上已经创建了索引,MySQL无需扫描任何记录即可迅速得到目标记录所在的位置.如果表有1000个记录,通过索引查找记录至少要比顺序扫描记录快100倍. 假设我们创建了一个名为people的表: CREATE TABLE people ( pe