SolrCloud6.1.0之SQL查询测试

Solr发展飞快,现在最新的版本已经6.1.0了,下面来回顾下Solr6.x之后的一些新的特点:

(1)并行SQL特性支持,编译成Streaming 表达式,可以在solrcloud集群中,并行执行

(2)SolrCloud的Collection被抽象成关系型数据库表,现在不仅仅可以支持强大的全文检索,还通过SQL支持像数据库一样的BI分析

(3)在SQL的where语句中,全面支持强大的Lucene/Solr语法

(4)一些聚合操作例如Group会自动优化成并行操作,通过使用Streaming表达式来以Map-Reduce的方式运行

(5)在(4)中运行的聚合操作,还可以以原生的JSON Facet 方式,来优化提升性能

(6)SQL特性目前仅支持SolrCloud集群方式,单机方式并不支持

有关SolrCloud的集群搭建,在这里散仙就不详细说了,有兴趣的朋友,可以参考我前面的文章

http://qindongliang.iteye.com/blog/2275990,搭建好的集群如下:

实际上像Solr或者ElasticSearch能支持SQL,这并不奇怪,因为他们底层基本上都提供了SQL能支持的大部分功能接口,比如,排序,过滤

分组,聚合等一些操作,能支持SQL,但不意味着能取代关系型数据库,恰恰相反,NoSQL是作为SQL的有力补充,怎么样组合搭配使用,能把业务

场景优化的更好,或者能解决某类问题,才是引入这些框架的初衷。

前面说到,Solr在api层面已经有各种功能的接口,缺的就是一个SQL语法解析器,以及如何与最新的Java8的对接? 所以在Solr6.x里面,引入两个

最重要的东东就是:

(1)引入了Facebook开源的大数据SQL检索框架Presto的SQL Parser

(2)使用Java8的Streaming Api写的Streaming Expressions (流式表达式),支持类似shell的管道的计算方式,可以对数据流进行各种复杂操作例如各种join,

也可以进行图谱查询

使用Solrj通过JDBC查询Solr,目前只能查,暂不支持更新,修改,删除等操作

依赖jar包:

$SOLR_HOME/dist/solrj-libs  所有的jar

$SOLR_HOME/dist/solr-solrj-<version>.jar   solr-solrj.jar

如果是maven项目:

Java代码  

  1. <!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj -->
  2. <dependency>
  3. <groupId>org.apache.solr</groupId>
  4. <artifactId>solr-solrj</artifactId>
  5. <version>6.1.0</version>
  6. </dependency>

下面来看一段Solrj通过JDBC查询示例:

Java代码  

  1. Connection con=null;
  2. Statement stmt=null;
  3. ResultSet rs=null;
  4. try{
  5. String collection="sql_search";
  6. String aggregationMode="facet";// facet or map_reduce
  7. //注意solr//:后面跟的是zk集群地址,如果有chroot path还需要加上
  8. con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2");
  9. //检索,排序,topN
  10. String sql1="select dtime  from big_search order by dtime desc limit 4 ";
  11. //多级分组,排序1
  12. String sql2="select t1,t2,t3 , count(*)  from big_search group by t1,t2 ,t3 order by count(*) desc limit 3  ";
  13. //分组,过滤,排序2
  14. String sql21="select t1, count(*)  from big_search group by t1 having count(*) > 2 order by count(*) desc    ";
  15. //去重
  16. String sql221="select distinct t3 from sql_search limit 2  ";
  17. //全文检索查询
  18. String sql15="select rowkey from big_search  where title=‘(你好 苏州)‘ limit 4  ";
  19. //聚合函数  支持max,min,avg,sum,count
  20. String sql4="select count(*) from big_search  limit 2 ";
  21. //提取字段
  22. String sql3="select t1,t2 from big_search ";
  23. stmt = con.createStatement();//编译sql
  24. rs = stmt.executeQuery(sql21);//执行sql
  25. ResultSetMetaData metaData = rs.getMetaData(); //获取字段名元数据
  26. String line_space="\t"; //格式化打印
  27. for(int i=1;i<=metaData.getColumnCount();i++){
  28. System.out.print(metaData.getColumnName(i)+line_space);//打印表头
  29. }
  30. System.out.println();
  31. while(rs.next()) {//循环从游标提取数据
  32. for(int i=1;i<=metaData.getColumnCount();i++){//遍历列头
  33. System.out.print(rs.getString(metaData.getColumnName(i))+line_space);//格式化打印字段内容
  34. }
  35. System.out.println();
  36. }
  37. } finally {
  38. if(rs!=null){
  39. rs.close();
  40. }
  41. if(stmt!=null){
  42. stmt.close();
  43. }
  44. if(con!=null){
  45. con.close();
  46. }
  47. }
  48. System.out.println("====end====");

下面来看一段使用流式表达式查询的操作,无须任何依赖,在Solr的Admin界面就能操作;

图中的代码的是查询solrcloud中每个shard一条数据,然后总共返回3条数据,最后对3条数据,排序,取top1

总结:

(1)关于如何集成中文分词IK或者Ansj

单机版的solr,如果是IK,需要在

solr\server\solr-webapp\webapp\WEB-INF目录下,新建一个classes目录,将其词库文件全部放进去

然后将IK的jar包,放入solr\server\solr-webapp\webapp\WEB-INF\lib下。

如果是Ansj,则需要将Ansj相关的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下,

然后将Ansj的library的目录,放在solr\server中。

在SolrCloud集群模式中,是需要把某个collection下的conf下的所有文件,上传到zookeeper上的,所有的shard都会

从zk上加载所需的文件,包括一些词库的配置,这个时候,放在本地磁盘上的词库,是不会被识别的,所以你需要把上传的词库

文件一起上传到zk上,然后配置合理的路径即可,任何文件的更新,都需要reload整个collection才能更新(solr6之前是需要relaod所有的shard),

否则,发生的改动不会被识别。

(2)理解map_reduce  和 facet两种聚合模式

A: map_reduce  模式,支持任意多字段的聚合查询,不受限制,但性能稍低

测试环境5个shard+3个副本

测试数据,必须大于6(shard+1)条数据,否则会报错

可测 group+distict

执行流程如下:

B:facet   模式,使用Solr原生的Json Facet Api 操作,受一定索引的限制,但性能较高

只要求有shard,有数据,即可测试,利用solr原生的Facet api进行聚合

(3)理解DocValue对SQL查询的影响

大部分情况下在Solr中的SQL查询,是需要加上limit关键词的,如果你不加,要么你就会发现,你的查询可能会莫名其妙的报错

这个时候问题的原因大部分是跟DocValue有关的, Solr6要求,所有不加的limit查询的字段,必须全部是DocValue激活的

字段,如果任何一个不是,那么查询肯定报错,如果你加了limit关键词,要么可以不受这个限制影响。

至于为什么必须要激活DocValue字段才能进行all字段提取查询,主要目的还是为了性能,想了解DocValue可以

参考散仙之前的文章:http://qindongliang.iteye.com/blog/2297280

(4) Solr6支持客户端工具(像MySQL的NaviCat)查询链接:

A:DbVisualizer  (C/S客户端GUI)

B:SQuirreL SQL (C/S客户端GUI)

C:Apache Zeppelin  (B/S web端)

大部分都需要配置添加有关的solr的jdbc的jar包,具体安装方式参考文末链接

(5)除了JDBC方式支持SQL查询,http方式也是可以的:

Shell代码  

  1. [[email protected] ~]$ cat sql.sh
  2. ## 聚合模式 map_reduce
  3. #curl --data-urlencode ‘stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10‘  http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce
  4. ## 聚合模式 facet
  5. curl --data-urlencode ‘stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10‘  http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet
  6. [[email protected] ~]$ sh sql.sh
  7. {"result-set":{"docs":[
  8. {"count(*)":4,"t1":"01"},
  9. {"count(*)":2,"t1":"02"},
  10. {"count(*)":2,"t1":"03"},
  11. {"count(*)":2,"t1":"04"},
  12. {"count(*)":2,"t1":"05"},
  13. {"EOF":true,"RESPONSE_TIME":84}]}}

官网文档:

https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions

https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools

有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。

技术债不能欠,健康债更不能欠, 求道之路,与君同行。

时间: 2025-01-13 04:36:28

SolrCloud6.1.0之SQL查询测试的相关文章

笔记:Hibernate SQL 查询

Hibernate 支持使用原生的SQL查询,使用原生SQL查询可以利用某些数据库特性,原生SQL查询也支持将SQL语句放在配置文件中配置,从而提高程序的解耦,命名SQL查询还可以用于调用存储过程. SQL查询是通过SQLQuery接口来表示的,SQLQuery接口是Query接口的子接口,完全可以使用Query接口的方法,SQLQuery增加了二个重载方法 addEntity():将查询到的记录与特定的实体关联 addScalar():江查询的记录关联标量值 执行SQL的步骤如下: 获取Hib

sql注入攻击与防御第二版读书笔记二——SQL注入测试

寻找SQL注入 该阶段的主要目标是识别服务器响应中的异常并确定是否由SQL注入漏洞产生,随后确定在服务器端运行的SQL查询的类型(select,update,insert或delete),以及将攻击代码注入查询中的位置(比如from,where或者order by等) 我们需要关注:get,post,cookie,host,referer,useragent. 理解并利用SQL注入漏洞所涉及的主要技术包括:在心里重建开发人员在Web应用中编写的代码以及设想远程SQL代码的内容.如果能想象出服务器

《软件测试自动化之道》读书笔记 之 SQL 存储过程测试

<软件测试自动化之道>读书笔记 之 SQL 存储过程测试 2014-09-28 待测程序测试程序   创建测试用例以及测试结果存储  执行T-SQL脚本  使用BCP工具导入测试用例数据  创建T-SQL 测试套件  当待测存储过程返回行集的时候,如何判断测试结果是否通过  当待测存储过程返回out参数时,如何判断测试结果是否通过  当待测存储过程没有返回值时,如何判断测试结果是否通过 许多基于Windows的系统都使用了SQL Server作为后台组件.待测程序经常通过存储过程来访问数据库.

SQL查询效率:100w数据查询只需要1秒钟

内存: 4 G os: windows 2003 数据库: ms sql server 2008 目的: 查询性能测试,比较两种查询的性能 SQL查询效率 step by step -- setp 1. -- 建表 create table t_userinfo ( userid int identity(1,1) primary key nonclustered, nick varchar(50) not null default '', classid int not null defaul

SQL 查询性能优化----解决书签查找

先来看看什么是书签查找: 当优化器所选择的非聚簇索引只包含查询请求的一部分字段时,就需要一个查找(lookup)来检索其他字段来满足请求.对一个有聚簇索引的表来说是一个键查找(key lookup),对一个堆表来说是一个RID查找(RID lookup).这种查找即是——书签查找. 书签查找根据索引的行定位器从表中读取数据.因此,除了索引页面的逻辑读取外,还需要数据页面的逻辑读取. 从索引的行定位器到从表中读取数据这之间会产生一些额外的开销,本文就来解决这个开销. 先看下我的测试表结构: 其中可

sql查询语句查询顺序

一 SELECT语句关键字的定义顺序 SELECT DISTINCT <select_list> FROM <left_table> <join_type> JOIN <right_table> ON <join_condition> WHERE <where_condition> GROUP BY <group_by_list> HAVING <having_condition> ORDER BY <o

Phoenix的安装使用与SQL查询HBase

一. Phoenix的简介 1. 什么是phoenix 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等.今天主要说Phoenix.phoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟.事务性.可使用sql.提供jdbc接口的特点. 而且phoenix还提供了hbase二级索引的解决方案,丰富了hbase查询的多样性,继承了hbase海量数据快速随机查询的特点.但是在生产环境中,不可以用在OLTP中.在线事

没错,纯SQL查询语句可以实现神经网络

我们熟知的SQL是一种数据库查询语句,它方便了开发者在大型数据中执行高效的操作.但本文从另一角度嵌套SQL查询语句而构建了一个简单的三层全连接网络,虽然由于语句的嵌套过深而不能高效计算,但仍然是一个非常有意思的实验. 在这篇文章中,我们将纯粹用SQL实现含有一个隐藏层(以及带 ReLU 和 softmax 激活函数)的神经网络.这些神经网络训练的步骤包含前向传播和反向传播,将在 BigQuery 的单个SQL查询语句中实现.当它在 BigQuery 中运行时,实际上我们正在成百上千台服务器上进行

MySQL 8.0 新增SQL语法对窗口函数和CTE的支持

如果用过MSSQL或者是Oracle中的窗口函数(Oracle中叫分析函数), 然后再使用MySQL 8.0之前的时候,就知道需要在使用窗口函数处理逻辑的痛苦了,虽然纯SQL也能实现类似于窗口函数的功能,但是这种SQL在可读性和以及使用方式上大打折扣,看起来写起了都比较难受. 在MSSQL和Oracle以及PostgreSQL都已经完整支持窗口函数的情况下,MySQL 8.0中也加入了窗口函数的功能,这一点实实在在方便了sql的编码,可以说是MySQL8.0的亮点之一. 对于窗口函数,比如row