php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。
Sphinx创建索引的速度为:创建100万条记录的索引只需3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建一次只需几十秒。
Sphinx的特性如下:
a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
b)  高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
d)  提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
e)  支持分布式搜索;
f)  支持短语搜索
g)  提供文档摘要生成
h)  可作为MySQL的存储引擎提供搜索服务;
i)  支持布尔、短语、词语相似度等多种检索模式;
j)  文档支持多个全文检索字段(最大不超过32个);
k)  文档支持多个额外的属性信息(例如:分组信息,时间戳等);
l)  支持断词;
虽然mysql的MYISAM提供全文索引,但是性能却不敢让人恭维

开始搭建

系统环境:centos6.5+php5.6+apache+MySQL

1、安装依赖包

[php] view plain copy

  1. yum -y install make gcc g++ gcc-c++ libtool autoconf automake imake php-devel mysql-devel libxml2-devel expat-devel

2、安装Sphinx

[php] view plain copy

  1. yum install expat expat-devel
  2. wget -c http://sphinxsearch.com/files/sphinx-2.0.7-release.tar.gz
  3. tar zxvf sphinx-2.0.7-release.tar.gz
  4. cd sphinx-2.0.7-release
  5. ./configure --prefix=/usr/local/sphinx  --with-mysql --with-libexpat --enable-id64
  6. make && make install

3、安装libsphinxclient,PHP扩展用到

[php] view plain copy

  1. cd api/libsphinxclient
  2. ./configure --prefix=/usr/local/sphinx/libsphinxclient
  3. make && make install


4、安装Sphinx的PHP扩展:我的是5.6需装sphinx-1.3.3.tgz,如果是php5.4以下可sphinx-1.3.0.tgz

[php] view plain copy

  1. wget -c http://pecl.php.net/get/sphinx-1.3.3.tgz
  2. tar zxvf sphinx-1.3.3.tgz
  3. cd sphinx-1.3.3
  4. phpize
  5. ./configure --with-sphinx=/usr/local/sphinx/libsphinxclient/ --with-php-config=/usr/bin/php-config
  6. make && make install
  7. 成功后会提示:
  8. Installing shared extensions:     /usr/lib64/php/modules/
  9. echo "[Sphinx]" >> /etc/php.ini
  10. echo "extension = sphinx.so" >> /etc/php.ini
  11. #重启apache
  12. service httpd restart

5、创建测试数据

[php] view plain copy

  1. CREATE TABLE IF NOT EXISTS `items` (
  2. `id` int(11) NOT NULL AUTO_INCREMENT,
  3. `title` varchar(255) NOT NULL,
  4. `content` text NOT NULL,
  5. `created` datetime NOT NULL,
  6. PRIMARY KEY (`id`)
  7. ) ENGINE=InnoDB  DEFAULT CHARSET=utf8 COMMENT=‘全文检索测试的数据表‘ AUTO_INCREMENT=11 ;
  8. INSERT INTO `items` (`id`, `title`, `content`, `created`) VALUES
  9. (1, ‘linux mysql集群安装‘, ‘MySQL Cluster 是MySQL 适合于分布式计算环境的高实用、可拓展、高性能、高冗余版本‘, ‘2016-09-07 00:00:00‘),
  10. (2, ‘mysql主从复制‘, ‘mysql主从备份(复制)的基本原理 mysql支持单向、异步复制,复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器‘, ‘2016-09-06 00:00:00‘),
  11. (3, ‘hello‘, ‘can you search me?‘, ‘2016-09-05 00:00:00‘),
  12. (4, ‘mysql‘, ‘mysql is the best database?‘, ‘2016-09-03 00:00:00‘),
  13. (5, ‘mysql索引‘, ‘关于MySQL索引的好处,如果正确合理设计并且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车‘, ‘2016-09-01 00:00:00‘),
  14. (6, ‘集群‘, ‘关于MySQL索引的好处,如果正确合理设计并且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车‘, ‘0000-00-00 00:00:00‘),
  15. (9, ‘复制原理‘, ‘redis也有复制‘, ‘0000-00-00 00:00:00‘),
  16. (10, ‘redis集群‘, ‘集群技术是构建高性能网站架构的重要手段,试想在网站承受高并发访问压力的同时,还需要从海量数据中查询出满足条件的数据,并快速响应,我们必然想到的是将数据进行切片,把数据根据某种规则放入多个不同的服务器节点,来降低单节点服务器的压力‘, ‘0000-00-00 00:00:00‘);
  17. CREATE TABLE IF NOT EXISTS `sph_counter` (
  18. `counter_id` int(11) NOT NULL,
  19. `max_doc_id` int(11) NOT NULL,
  20. PRIMARY KEY (`counter_id`)
  21. ) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT=‘增量索引标示的计数表‘;

以下采用"Main + Delta" ("主索引"+"增量索引")的索引策略,使用Sphinx自带的一元分词。

6、Sphinx配置:注意修改数据源配置信息

[php] view plain copy

  1. vi /usr/local/sphinx/etc/sphinx.conf
  2. source items {
  3. type = mysql
  4. sql_host = localhost
  5. sql_user = root
  6. sql_pass = 123456
  7. sql_db = sphinx_items
  8. sql_query_pre = SET NAMES utf8
  9. sql_query_pre = SET SESSION query_cache_type = OFF
  10. sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM items
  11. sql_query_range = SELECT MIN(id), MAX(id) FROM items \
  12. WHERE id<=(SELECT max_doc_id FROM sph_counter WHERE counter_id=1)
  13. sql_range_step = 1000
  14. sql_ranged_throttle = 1000
  15. sql_query = SELECT id, title, content, created, 0 as deleted FROM items \
  16. WHERE id<=(SELECT max_doc_id FROM sph_counter WHERE counter_id=1) \
  17. AND id >= $start AND id <= $end
  18. sql_attr_timestamp = created
  19. sql_attr_bool = deleted
  20. }
  21. source items_delta : items {
  22. sql_query_pre = SET NAMES utf8
  23. sql_query_range = SELECT MIN(id), MAX(id) FROM items \
  24. WHERE id > (SELECT max_doc_id FROM sph_counter WHERE counter_id=1)
  25. sql_query = SELECT id, title, content, created, 0 as deleted FROM items \
  26. WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 ) \
  27. AND id >= $start AND id <= $end
  28. sql_query_post_index = set @max_doc_id :=(SELECT max_doc_id FROM sph_counter WHERE counter_id=1)
  29. sql_query_post_index = REPLACE INTO sph_counter SELECT 2, IF($maxid, $maxid, @max_doc_id)
  30. }
  31. #主索引
  32. index items {
  33. source = items
  34. path = /usr/local/sphinx/var/data/items
  35. docinfo = extern
  36. morphology = none
  37. min_word_len = 1
  38. min_prefix_len = 0
  39. html_strip = 1
  40. html_remove_elements = style, script
  41. ngram_len = 1
  42. ngram_chars = U+3000..U+2FA1F
  43. charset_type = utf-8
  44. charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  45. preopen = 1
  46. min_infix_len = 1
  47. }
  48. #增量索引
  49. index items_delta : items {
  50. source = items_delta
  51. path = /usr/local/sphinx/var/data/items-delta
  52. }
  53. #分布式索引
  54. index master {
  55. type = distributed
  56. local = items
  57. local = items_delta
  58. }
  59. indexer {
  60. mem_limit = 256M
  61. }
  62. searchd {
  63. listen                   = 9312
  64. listen                   = 9306:mysql41 #Used for SphinxQL
  65. log                      = /usr/local/sphinx/var/log/searchd.log
  66. query_log          = /usr/local/sphinx/var/log/query.log
  67. compat_sphinxql_magics   = 0
  68. attr_flush_period                = 600
  69. mva_updates_pool   = 16M
  70. read_timeout           = 5
  71. max_children           = 0
  72. dist_threads             = 2
  73. pid_file                    = /usr/local/sphinx/var/log/searchd.pid
  74. max_matches          = 1000
  75. seamless_rotate       = 1
  76. preopen_indexes     = 1
  77. unlink_old               = 1
  78. workers                  = threads # for RT to work
  79. binlog_path            = /usr/local/sphinx/var/data
  80. }

保存退出

7、Sphinx创建索引

[php] view plain copy

  1. #第一次需重建索引:
  2. [[email protected] bin]# ./indexer -c /usr/local/sphinx/etc/sphinx.conf --all
  3. Sphinx 2.0.7-id64-release (r3759)
  4. Copyright (c) 2001-2012, Andrew Aksyonoff
  5. Copyright (c) 2008-2012, Sphinx Technologies Inc (http://sphinxsearch.com)
  6. using config file ‘/usr/local/sphinx/etc/sphinx.conf‘...
  7. indexing index ‘items‘...
  8. collected 8 docs, 0.0 MB
  9. sorted 0.0 Mhits, 100.0% done
  10. total 8 docs, 1121 bytes
  11. total 1.017 sec, 1101 bytes/sec, 7.86 docs/sec
  12. indexing index ‘items_delta‘...
  13. collected 0 docs, 0.0 MB
  14. total 0 docs, 0 bytes
  15. total 1.007 sec, 0 bytes/sec, 0.00 docs/sec
  16. skipping non-plain index ‘master‘...
  17. total 4 reads, 0.000 sec, 0.7 kb/call avg, 0.0 msec/call avg
  18. total 14 writes, 0.001 sec, 0.5 kb/call avg, 0.1 msec/call avg
  19. #启动sphinx
  20. [[email protected] bin]# ./searchd -c /usr/local/sphinx/etc/sphinx.conf
  21. Sphinx 2.0.7-id64-release (r3759)
  22. Copyright (c) 2001-2012, Andrew Aksyonoff
  23. Copyright (c) 2008-2012, Sphinx Technologies Inc (http://sphinxsearch.com)
  24. using config file ‘/usr/local/sphinx/etc/sphinx.conf‘...
  25. listening on all interfaces, port=9312
  26. listening on all interfaces, port=9306
  27. precaching index ‘items‘
  28. precaching index ‘items_delta‘
  29. rotating index ‘items_delta‘: success
  30. precached 2 indexes in 0.012 sec
  31. #查看进程
  32. [[email protected] bin]# ps -ef | grep searchd
  33. root     30431     1  0 23:59 ?        00:00:00 ./searchd -c /usr/local/sphinx/etc/sphinx.conf
  34. root     30432 30431  0 23:59 ?        00:00:00 ./searchd -c /usr/local/sphinx/etc/sphinx.conf
  35. root     30437  1490  0 23:59 pts/0    00:00:00 grep searchd
  36. #停止Searchd:
  37. ./searchd -c /usr/local/sphinx/etc/sphinx.conf --stop
  38. #查看Searchd状态:
  39. ./searchd -c /usr/local/sphinx/etc/sphinx.conf --status

索引更新及使用说明
"增量索引"每N分钟更新一次.通常在每天晚上低负载的时进行一次索引合并,同时重新建立"增量索引"。当然"主索引"数据不多的话,也可以直接重新建立"主索引"。
API搜索的时,同时使用"主索引"和"增量索引",这样可以获得准实时的搜索数据.本文的Sphinx配置将"主索引"和"增量索引"放到分布式索引master中,因此只需查询分布式索引"master"即可获得全部匹配数据(包括最新数据)。

索引的更新与合并的操作可以放到cron job完成:

[php] view plain copy

  1. crontab -e
  2. */1 * * * *  /usr/local/sphinx/shell/delta_index_update.sh
  3. 0 3 * * *    /usr/local/sphinx/shell/merge_daily_index.sh
  4. crontab -l

cron job所用的shell脚本例子:

delta_index_update.sh:

[php] view plain copy

  1. #!/bin/bash
  2. /usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/sphinx.conf --rotate items_delta > /dev/null 2>&1

merge_daily_index.sh:

[php] view plain copy

  1. #!/bin/bash
  2. indexer=`which indexer`
  3. mysql=`which mysql`
  4. QUERY="use sphinx_items;select max_doc_id from sph_counter where counter_id = 2 limit 1;"
  5. index_counter=$($mysql -h192.168.1.198 -uroot -p123456 -sN -e "$QUERY")
  6. #merge "main + delta" indexes
  7. $indexer -c /usr/local/sphinx/etc/sphinx.conf --rotate --merge items items_delta --merge-dst-range deleted 0 0 >> /usr/local/sphinx/var/index_merge.log 2>&1
  8. if [ "$?" -eq 0 ]; then
  9. ##update sphinx counter
  10. if [ ! -z $index_counter ]; then
  11. $mysql -h192.168.1.198 -uroot -p123456 -Dsphinx_items -e "REPLACE INTO sph_counter VALUES (1, ‘$index_counter‘)"
  12. fi
  13. ##rebuild delta index to avoid confusion with main index
  14. $indexer -c /usr/local/sphinx/etc/sphinx.conf --rotate items_delta >> /usr/local/sphinx/var/rebuild_deltaindex.log 2>&1
  15. fi

8、php中文分词scws安装:注意扩展的版本和php的版本

[php] view plain copy

  1. wget -c http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2
  2. tar jxvf scws-1.2.3.tar.bz2
  3. cd scws-1.2.3
  4. ./configure --prefix=/usr/local/scws
  5. make && make install

9、scws的PHP扩展安装:

[php] view plain copy

  1. cd ./phpext
  2. phpize
  3. ./configure
  4. make && make install
  5. echo "[scws]" >> /etc/php.ini
  6. echo "extension = scws.so" >> /etc/php.ini
  7. echo "scws.default.charset = utf-8" >> /etc/php.ini
  8. echo "scws.default.fpath = /usr/local/scws/etc/" >> /etc/php.ini

10、词库安装:

[php] view plain copy

  1. wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
  2. tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
  3. chown www:www /usr/local/scws/etc/dict.utf8.xdb

11、php使用Sphinx+scws测试例子
在Sphinx源码API中,有好几种语言的API调用.其中有一个是sphinxapi.php。
不过以下的测试使用的是Sphinx的PHP扩展.具体安装见本文开头的Sphinx安装部分。
测试用的搜索类Search.php:注意修改getDBConnection()信息为自己的

[php] view plain copy

  1. <?php
  2. class Search {
  3. /**
  4. * @var SphinxClient
  5. **/
  6. protected $client;
  7. /**
  8. * @var string
  9. **/
  10. protected $keywords;
  11. /**
  12. * @var resource
  13. **/
  14. private static $dbconnection = null;
  15. /**
  16. * Constructor
  17. **/
  18. public function __construct($options = array()) {
  19. $defaults = array(
  20. ‘query_mode‘ => SPH_MATCH_EXTENDED2,
  21. ‘sort_mode‘ => SPH_SORT_EXTENDED,
  22. ‘ranking_mode‘ => SPH_RANK_PROXIMITY_BM25,
  23. ‘field_weights‘ => array(),
  24. ‘max_matches‘ => 1000,
  25. ‘snippet_enabled‘ => true,
  26. ‘snippet_index‘ => ‘items‘,
  27. ‘snippet_fields‘ => array(),
  28. );
  29. $this->options = array_merge($defaults, $options);
  30. $this->client = new SphinxClient();
  31. //$this->client->setServer("192.168.1.198", 9312);
  32. $this->client->setMatchMode($this->options[‘query_mode‘]);
  33. if ($this->options[‘field_weights‘] !== array()) {
  34. $this->client->setFieldWeights($this->options[‘field_weights‘]);
  35. }
  36. /*
  37. if ( in_array($this->options[‘query_mode‘], [SPH_MATCH_EXTENDED2,SPH_MATCH_EXTENDED]) ) {
  38. $this->client->setRankingMode($this->options[‘ranking_mode‘]);
  39. }
  40. */
  41. }
  42. /**
  43. * Query
  44. *
  45. * @param string  $keywords
  46. * @param integer $offset
  47. * @param integer $limit
  48. * @param string  $index
  49. * @return array
  50. **/
  51. public function query($keywords, $offset = 0, $limit = 10, $index = ‘*‘) {
  52. $this->keywords = $keywords;
  53. $max_matches = $limit > $this->options[‘max_matches‘] ? $limit : $this->options[‘max_matches‘];
  54. $this->client->setLimits($offset, $limit, $max_matches);
  55. $query_results = $this->client->query($keywords, $index);
  56. if ($query_results === false) {
  57. $this->log(‘error:‘ . $this->client->getLastError());
  58. }
  59. $res = [];
  60. if ( empty($query_results[‘matches‘]) ) {
  61. return $res;
  62. }
  63. $res[‘total‘] = $query_results[‘total‘];
  64. $res[‘total_found‘] = $query_results[‘total_found‘];
  65. $res[‘time‘] = $query_results[‘time‘];
  66. $doc_ids = array_keys($query_results[‘matches‘]);
  67. unset($query_results);
  68. $res[‘data‘] = $this->fetch_data($doc_ids);
  69. if ($this->options[‘snippet_enabled‘]) {
  70. $this->buildExcerptRows($res[‘data‘]);
  71. }
  72. return $res;
  73. }
  74. /**
  75. * custom sorting
  76. *
  77. * @param string $sortBy
  78. * @param int $mode
  79. * @return bool
  80. **/
  81. public function setSortBy($sortBy = ‘‘, $mode = 0) {
  82. if ($sortBy) {
  83. $mode = $mode ?: $this->options[‘sort_mode‘];
  84. $this->client->setSortMode($mode, $sortBy);
  85. } else {
  86. $this->client->setSortMode(SPH_SORT_RELEVANCE);
  87. }
  88. }
  89. /**
  90. * fetch data based on matched doc_ids
  91. *
  92. * @param array $doc_ids
  93. * @return array
  94. **/
  95. protected function fetch_data($doc_ids) {
  96. $ids = implode(‘,‘, $doc_ids);
  97. $queries = self::getDBConnection()->query("SELECT * FROM items WHERE id in ($ids)", PDO::FETCH_ASSOC);
  98. return iterator_to_array($queries);
  99. }
  100. /**
  101. * build excerpts for data
  102. *
  103. * @param array $rows
  104. * @return array
  105. **/
  106. protected function buildExcerptRows(&$rows) {
  107. $options = array(
  108. ‘before_match‘ => ‘<b style="color:red">‘,
  109. ‘after_match‘  => ‘</b>‘,
  110. ‘chunk_separator‘ => ‘...‘,
  111. ‘limit‘    => 256,
  112. ‘around‘   => 3,
  113. ‘exact_phrase‘ => false,
  114. ‘single_passage‘ => true,
  115. ‘limit_words‘ => 5,
  116. );
  117. $scount = count($this->options[‘snippet_fields‘]);
  118. foreach ($rows as &$row) {
  119. foreach ($row as $fk => $item) {
  120. if (!is_string($item) || ($scount && !in_array($fk, $this->options[‘snippet_fields‘])) ) continue;
  121. $item = preg_replace(‘/[\r\t\n]+/‘, ‘‘, strip_tags($item));
  122. $res = $this->client->buildExcerpts(array($item), $this->options[‘snippet_index‘], $this->keywords, $options);
  123. $row[$fk] = $res === false ? $item : $res[0];
  124. }
  125. }
  126. return $rows;
  127. }
  128. /**
  129. * database connection
  130. *
  131. * @return resource
  132. **/
  133. private static function getDBConnection() {
  134. $dsn = ‘mysql:host=192.168.1.198;dbname=sphinx_items‘;
  135. $user = ‘root‘;
  136. $pass = ‘123456‘;
  137. if (!self::$dbconnection) {
  138. try {
  139. self::$dbconnection = new PDO($dsn, $user, $pass);
  140. } catch (PDOException $e) {
  141. die(‘Connection failed: ‘ . $e->getMessage());
  142. }
  143. }
  144. return self::$dbconnection;
  145. }
  146. /**
  147. * Chinese words segmentation
  148. *
  149. **/
  150. public function wordSplit($keywords) {
  151. $fpath = ini_get(‘scws.default.fpath‘);
  152. $so = scws_new();
  153. $so->set_charset(‘utf-8‘);
  154. $so->add_dict($fpath . ‘/dict.utf8.xdb‘);
  155. //$so->add_dict($fpath .‘/custom_dict.txt‘, SCWS_XDICT_TXT);
  156. $so->set_rule($fpath . ‘/rules.utf8.ini‘);
  157. $so->set_ignore(true);
  158. $so->set_multi(false);
  159. $so->set_duality(false);
  160. $so->send_text($keywords);
  161. $words = [];
  162. $results =  $so->get_result();
  163. foreach ($results as $res) {
  164. $words[] = ‘(‘ . $res[‘word‘] . ‘)‘;
  165. }
  166. $words[] = ‘(‘ . $keywords . ‘)‘;
  167. return join(‘|‘, $words);
  168. }
  169. /**
  170. * get current sphinx client
  171. *
  172. * @return resource
  173. **/
  174. public function getClient() {
  175. return $this->client;
  176. }
  177. /**
  178. * log error
  179. **/
  180. public function log($msg) {
  181. // log errors here
  182. //echo $msg;
  183. }
  184. /**
  185. * magic methods
  186. **/
  187. public function __call($method, $args) {
  188. $rc = new ReflectionClass(‘SphinxClient‘);
  189. if ( !$rc->hasMethod($method) ) {
  190. throw new Exception(‘invalid method :‘ . $method);
  191. }
  192. return call_user_func_array(array($this->client, $method), $args);
  193. }
  194. }

测试文件test.php:

[php] view plain copy

  1. <?php
  2. require(‘Search.php‘);
  3. $s = new Search([
  4. ‘snippet_fields‘ => [‘title‘, ‘content‘],
  5. ‘field_weights‘ => [‘title‘ => 20, ‘content‘ => 10],
  6. ]);
  7. $s->setSortMode(SPH_SORT_EXTENDED, ‘created desc,@weight desc‘);
  8. //$s->setSortBy(‘created desc,@weight desc‘);
  9. $words = $s->wordSplit("mysql集群");//先分词 结果:(mysql)|(mysql集群)
  10. //print_r($words);exit;
  11. $res = $s->query($words, 0, 10, ‘master‘);
  12. echo ‘<pre/>‘;print_r($res);

测试结果:

12、SphinxQL测试

要使用SphinxQL需要在Searchd的配置里面增加相应的监听端口(参考上文配置)。

[php] view plain copy

  1. [[email protected] bin]# mysql -h127.0.0.1 -P9306 -uroot -p
  2. Enter password:
  3. Welcome to the MySQL monitor.  Commands end with ; or \g.
  4. Your MySQL connection id is 1
  5. Server version: 2.0.7-id64-release (r3759)
  6. Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved.
  7. Oracle is a registered trademark of Oracle Corporation and/or its
  8. affiliates. Other names may be trademarks of their respective
  9. owners.
  10. Type ‘help;‘ or ‘\h‘ for help. Type ‘\c‘ to clear the current input statement.
  11. mysql> show global variables;
  12. +----------------------+---------+
  13. | Variable_name        | Value   |
  14. +----------------------+---------+
  15. | autocommit           | 1       |
  16. | collation_connection | libc_ci |
  17. | query_log_format     | plain   |
  18. | log_level            | info    |
  19. +----------------------+---------+
  20. 4 rows in set (0.00 sec)
  21. mysql> desc items;
  22. +---------+-----------+
  23. | Field   | Type      |
  24. +---------+-----------+
  25. | id      | bigint    |
  26. | title   | field     |
  27. | content | field     |
  28. | created | timestamp |
  29. | deleted | bool      |
  30. +---------+-----------+
  31. 5 rows in set (0.00 sec)
  32. mysql> select * from master where match (‘mysql集群‘) limit 10;
  33. +------+---------+---------+
  34. | id   | created | deleted |
  35. +------+---------+---------+
  36. |    1 |    2016 |       0 |
  37. |    6 |       0 |       0 |
  38. +------+---------+---------+
  39. 2 rows in set (0.00 sec)
  40. mysql> show meta;
  41. +---------------+-------+
  42. | Variable_name | Value |
  43. +---------------+-------+
  44. | total         | 2     |
  45. | total_found   | 2     |
  46. | time          | 0.006 |
  47. | keyword[0]    | mysql |
  48. | docs[0]       | 5     |
  49. | hits[0]       | 15    |
  50. | keyword[1]    | 集    |
  51. | docs[1]       | 3     |
  52. | hits[1]       | 4     |
  53. | keyword[2]    | 群    |
  54. | docs[2]       | 3     |
  55. | hits[2]       | 4     |
  56. +---------------+-------+
  57. 12 rows in set (0.00 sec)
  58. mysql>
时间: 2024-10-10 21:04:42

php+中文分词scws+sphinx+mysql打造千万级数据全文搜索的相关文章

完全用nosql轻松打造千万级数据量的微博系统(转)

原文:http://www.cnblogs.com/imxiu/p/3505213.html 其实微博是一个结构相对简单,但数据量却是很庞大的一种产品.标题所说的是千万级数据量 也并不是一千万条微博信息而已,而是千万级订阅关系之间发布.在看 我这篇文章之前,大多数人都看过sina的杨卫华大牛的微博开发大会上的演讲.我这也不当复读机了,挑重点跟大家说一下. 大家都知道微博的难点在于明星会员问题,什么是明星会员问题了,就是刘德华来咱这开了微博,他有几百万的粉丝订阅者,他发一条微博信息,那得一下子 把

Coreseek-带中文分词的Sphinx

Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法) 1.下载 1).到官网下载 2).解压后有三个文件夹 csft-3.2.14: Sphinx mmseg-3.2.14: 中文分词组件 testpack: 接口开发包 2.安装 1).先安装mmseg, 因为Coreseek会用到 cd mmseg-3.2.14 ./configure --prefix=/usr/local/mmseg 此时如果Makefile文件创建成功,

MySQL 全文搜索支持, mysql 5.6.4支持Innodb的全文检索和类memcache的nosql支持

背景:搞个个人博客的全文搜索得用like啥的,现在mysql版本号已经大于5.6.4了也就支持了innodb的全文搜索了,刚查了下目前版本号都到MySQL Community Server 5.6.19 了,所以,一些小的应用可以用它做全文搜索了,像sphinx和Lucene这样偏重的.需要配置或开发的,节省了成本. 这儿有一个原创的Mysql全文搜索的文章, mysql的全文搜索功能:http://blog.csdn.net/bravekingzhang/article/details/672

Sphinx + Coreseek 实现中文分词搜索

Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索 全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使用Google等第三方站点提供的站内全文搜索的差别 Sphinx Coreseek介绍 Coreseek安装使用 1. 全文检索 1.1 全文检索 vs. 数据库 全文检索是数据库的有力补充,全文检索并不能替代数据库在应用系统中的作用.当应用系统的数据以大量的文本信息为主时,採用全文检索技术能够极大的提升应

mysql生成千万级的测试数据

http://blog.csdn.net/dennis211/article/details/78076399 MYSQL打造千万级测试数据 为了更好的测试MYSQL性能以及程序优化,不得不去制作海量数据来测试.我这里的方法就是直接用uuid函数进行分配每条数据的不同内容. 1.首先创建测试表(card表) [sql] view plain copy CREATE TABLE `card` ( `card_id` bigint(20) NOT NULL AUTO_INCREMENT COMMEN

关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造)

摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦.然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求.那么怎样改造它让它符合我们的要求呢?本文就是针对这一问题的详细解决办法,我们改mmseg的源代码. 关键字:Solr, mmseg, 中文, 分词, 标点, 符号, 语义 前提:Solr(5.0.0版本),mmseg4j(1.

基于MMSeg算法的中文分词类库

原文:基于MMSeg算法的中文分词类库 最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4j.html )基于Java版的翻译代码,但它不支持最新的Lucene.Net 3.0.3,于是基于它的代码升级升级到了最新版Lucene.Net (≥ 3.0.3),同时将其中大部分Java风格代

中文分词学习整理

主要分为两大类 1. 字符串匹配(扫描字符串),发现子串与词匹配,就算是匹配 这类分词通常加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等策略. 优点:速度快.O(n)时间复杂度. 缺点:歧义和未登陆词处理不好. 歧义的例子很简单"长春市/长春/药店" "长春/市长/春药/店". 未登录词即词典中没有出现的词,当然也就处理不好. ikanalyzer,paoding 等就是基于字符串匹配的分词 2. 基于统计及机器学习 这类分词基于人工标注的词性和统计

MySQL 全文搜索支持

MySQL 全文搜索支持 从MySQL 4.0以上 myisam引擎就支持了full text search 全文搜索,在一般的小网站或者blog上可以使用这个特性支持搜索. 那么怎么使用了,简单看看: 1.创建一个表,指定支持fulltext的列 CREATE TABLE articles ( id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY, title VARCHAR(200), body TEXT, FULLTEXT (title,b