1.通过python编写爬虫,数据存储到hdfs当中
2.通过solr在hdfs当中建立索引并实现全文检索功能
好了,正文开始了!
一,环境搭建
1.python3.4.4安装及环境变量配置
2.hadoop2.6.3安装及环境变量配置(单机)
3.solr5.5安装及配置
1. 下载tomcat9 及solr5.5
2.解压tomcat9级solr5.5 存放路径为tomcat9:/usr/local/solr/tomcat9
solr5.5:/usr/local/solr/solr-5.5.0
3.在tomcat的webapps中新建文件夹solr
mkdir solr
把solr-5.5.0\server\solr-webapp\webapp目录下的文件全部复制进来
cd /usr/local/solr/solr-5.5.0/server/solr-webapp/webapp/cp -r * /usr/local/solr/tomcat9/webapps/solr/
4.在tomcat9的WEB-INF文件下新建classes文件夹,把solr-5.5.0\server\resources\log4j.properties复制到classes文件夹里,这样才能看到solr的日志。
cd /usr/local/solr/tomcat9/webapps/solr/WEB-INF/mkdir classescp /usr/local/solr/solr-5.5.0/server/resources/log4j.properties /usr/local/solr/tomcat9/webapps/solr/WEB-INF/classes/
5.修改 WEB-INF/web.xml
<env-entry> <env-entry-name>solr/home</env-entry-name> <env-entry-value>/usr/local/solr/solr_home</env-entry-value> <env-entry-type>java.lang.String</env-entry-type> </env-entry>
在/usr/local/solr/目录下执行
mkdir solr_home
6.把 solr-5.5.0\server\lib\ext 下的jar包全部复制到 WEB-INF/lib目录下
7.在solr_home(WEB-INF/web.xml指定的目录)中创建一个core_sea(名字随意),core1中创建两个文件夹,data,conf。
把 solr-5.5.0\server\solr\configsets\basic_configs\conf 里边的文件全部复制到 新建的conf文件下。
把solr-5.5.0\server\solr\solr.xml复制到 core1同级下。
8.结束,启动tomcat, 输入http://localhost:8080/solr/index.html 。访问正常,即成功。
阿斯顿