继上次匆匆搭建起结合solr和nutch的所谓站内搜索引擎之后,虽当时心中兴奋不已,可是看了看百度,再只能看看我的控制台的打印出每个索引项的几行文字,哦,好像差距还是有点大……
简陋的信息显示环境最起码给了我一个信号,这条路没有走错,好吧,让我们来继续探索搜索引擎的奥秘吧。
上期回顾:上次主要是介绍了solrj,通过solrj的api与solr服务器进行通信,获取服务器上的索引数据以及在编写程序中遇到的一些问题和解决方法。本期主要是建立与solr服务器的通信,提供搜索界面输入关键字或搜索规则,根据关键字或规则到索引数据中寻找匹配项并返回结果到界面上。
1.本篇的前提是你已经配置好nutch以及solr,并通过网页爬取将索引数据存放到了solr服务器中(solr可以可以部署到tomcat的下也可以不部署,另外我的所有搭建都是在Ubuntu环境下),我配置了中文分词器,以上工作可以在网上搜,资料很多,过程中也有很多错误需要解决,如果有时间我会对这块做个总结,solr服务器的界面如下:
接下来就是要做一个搜索界面,基于是一个纯所搜引擎,所以提供一个招牌、一个输入框以及一个确认按钮即可,关于招牌定什么,问过朋友,有吸引眼球的千度、谷哥哥,一看就是要和度娘们叫板,算了咱不干以卵击石的事,还是有点自知之明的好,最终还是叫“jiesearch”吧——小众,不矫情。这块不涉及什么代码量,所以就多扯了几句,界面如下:
2.针对上次主题代码进行完善,因为上次返回的是一个SolrDocumentList 对象,不能直接转换为到jsp页面显示的list集合,所以借鉴网上前辈们的指点对代码进行了改写。
//首先定义HttpSolrServer对象,用于程序连接solr
public class SolrServer {
private static SolrServer solrServer = null;
private static HttpSolrServer server=null;
private static String url="http://solrIP:8080/solr";
public static synchronized SolrServer getInstance() {
if (solrServer==null){
solrServer=new SolrServer();
}
return solrServer;
}
public static HttpSolrServer getServer(){
try {
if(server==null){
server = new HttpSolrServer(url);
server.setSoTimeout(1000); // socket read timeout
server.setConnectionTimeout(1000);
server.setDefaultMaxConnectionsPerHost(100);
server.setMaxTotalConnections(100);
server.setFollowRedirects(false); // defaults to false
//allowCompression defaults to false.
//Server side must support gzip or deflate for this to have any effect.
server.setAllowCompression(true);
server.setMaxRetries(1); // defaults to 0. > 1 not recommended.
}
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return server;
}
}
//然后定义一个实体类BlogsDo用于接收和配置索引的各个字段
@Entity
@Table(name="blogs")
public class BlogsDO implements Serializable{
private static final long serialVersionUID = -4721368786493126226L;
@Field("Id")
private String id;
@Field("content")
private String content;
@Field("title")
private String title;
@Field("url")
private String url;
@Field("_version_")
private String _version_;
public String getId() {
return id;
}
public void setId(String id) {
this.id = id;
}
public String getContent() {
return content;
}
public void setContent(String content) {
this.content = content;
}
public String getTitle() {
return title;
}
public void setTitle(String title) {
this.title = title;
}
public String getUrl() {
return url;
}
public void setUrl(String url) {
this.url = url;
}
public String get_version_() {
return _version_;
}
public void set_version_(String version) {
_version_ = version;
}
public static long getSerialversionuid() {
return serialVersionUID;
}
}
备注:这些字段相应的都应该在schema.xml中存在<fields></fields>之间,如下所示,另外个人理解,对于实体类上的注解 @Field("")应该也是一种映射,就是将实体类的字段与配置文件中的选项相对应。
<field name="id" type="string" stored="true" indexed="true"/>
<field name="_version_" type="long" indexed="true" stored="true"/>
<!-- fields for index-basic plugin -->
<field name="url" type="url" stored="true" indexed="true"required="true"/>
<field name="content" type="text" stored="true" indexed="true"/>
<field name="title" type="text" stored="true" indexed="true"/>
//添加查询规则以及是否高亮的设置以及结果的返回与接收
String searchWord=request.getParameter("searchText");
List<BlogsDO> blogList=new ArrayList<BlogsDO>();
BlogsDO blogsDO=null;
HttpSolrServer solrServer= SolrServer.getInstance().getServer();
SolrQuery sQuery = new SolrQuery();
String para="";
Page page=null;
para="content:"+searchWord+"";
logger.info("para:"+para);
sQuery.setQuery(para);
sQuery.setStart(0);
sQuery.setRows(10);
//设置高亮
sQuery.setHighlight(true); // 开启高亮组件
sQuery.addHighlightField("content");// 高亮字段
sQuery.addHighlightField("title");// 高亮字段
sQuery.setHighlightSimplePre("<font color=‘red‘>");//标记,高亮关键字前缀
sQuery.setHighlightSimplePost("</font>");//后缀
sQuery.setHighlightSnippets(2);//结果分片数,默认为1
sQuery.setHighlightFragsize(1000);//每个分片的最大长度,默认为100
//分片信息
sQuery.setFacet(true)
.setFacetMinCount(1)
.setFacetLimit(5)//段
.addFacetField("content");//分片字段
long startSearch=System.currentTimeMillis();
Integer counts=0;
try {
QueryResponse response = solrServer.query(sQuery);
SolrDocumentList list = response.getResults();
counts=(int) list.getNumFound();//搜索数量
logger.info("counts:"+counts);
//获取所有高亮的字段
Map<String,Map<String,List<String>>> highlightMap=response.getHighlighting();
String blogId="";
for (SolrDocument solrDocument : list) {
blogsDO=new BlogsDO();
blogId=(String) solrDocument.getFieldValue("id").toString();
blogsDO.setId(blogId);
blogsDO.set_version_(solrDocument.getFieldValue("_version_").toString());
blogsDO.setUrl(solrDocument.getFieldValue("url").toString());
List<String> titleList=highlightMap.get(blogId).get("title");
List<String> contentList=highlightMap.get(blogId).get("content");
if(titleList!=null && titleList.size()>0){
blogsDO.setTitle(titleList.get(0));
}else{
//获取并设置高亮的字段title
blogsDO.setTitle(solrDocument.getFieldValue("title").toString());
}
if(contentList!=null && contentList.size()>0){
blogsDO.setContent(contentList.get(0));
}else{
//获取并设置高亮的字段content
blogsDO.setContent(solrDocument.getFieldValue("content").toString());
}
blogList.add(blogsDO);
}
} catch (SolrServerException e) {
e.printStackTrace();
}
long endSearch=System.currentTimeMillis();
model.addObject("time", (double)(endSearch-startSearch)/1000);
model.addObject("counts", counts);
model.addObject("blogList", blogList);
3.下面要做的就是在前台jsp页面中接收list集合和传过去的counts(搜索结果个数),time(搜索耗时)并相应的调整界面布局即可,效果如下:
至此一个搜索引擎做的算是有点模样了,下一步如果还有时间可以对本地文档图片等建立索引并实现搜索功能。
另外最近我在看大数据可视化方面的东西,如果有兴趣有见解的可以交流下
邮箱:[email protected]
文中如有不足和错误还请指正!
参考博文:http://blog.csdn.net/chunming8302/article/details/7321501
利用Solr服务建立的界面化站内搜索---solr2