大数据之nutch

一、nutch简介

nutch是大名鼎鼎的Doug Cutting发起的爬虫项目，nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nutch的一部分，从nutch V0.8.0开始，HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后，nutch就完全构建在Hadoop的基础之上了。

Nutch是一个开源的网络爬虫，在搜索引擎中负责爬取网页，同时自动维护网页的URL信息，例如相同网页去重、网页定时更新、网页重定向。nutch采用了MapReduce分布式爬取和解析，具有良好的水平扩展性。
现在版本的Nutch本身并不具有搜索功能(V1.2之后，nutch专注于爬取数据)，但是可以自动向搜索服务器提交爬取的网页。例如，solr，可以通过Nutch自带的命令，来控制Nutch是否将网页提交给索引服务器。
Nutch虽然是优秀的分布式爬虫框架，但是它的所有设计，都是为了搜索引擎服务的。在hadoop上用map-reduce框架开发，并不是很适合做数据抽取的业务。如果你的业务是做数据抽取（精抽取），而不是搜索引擎。不一定要选用Nutch。
nutch现在分为两个分支。一个是1.x系列，一个是2.x系列。它们的主要区别是2.x引入了Gora作为存储抽象层，从而支持各种NoSQL数据库，如HBase，Cassandra等

二、nutch安装

1.nutch的运行环境
JDK1.7及以上
需要使用linux操作系统

2.解压:

设置环境变量

验证： nutch

3.目录结构

bin：两个文件，一个是nutch，一个是crawl，
        crawl是对nutch中的命令进行了封装，实现了一站式调用。

conf：里面保存了nutch的基本配置信息，nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt

docs：api文档
lib：存储了nutch的依赖jar包
plugins：存储了nutch使用的插件jar包

三、nutch 爬虫

nutch 爬取准备工作

1：在nutch-site.xml中添加http.agent.name的配置。如果不配置，启动会报错。

2：创建一个种子地址目录,urls(在nutch 目录中就可以)，在目录下面创建一些种子文件，种子文件中保存种子地址。每一个种子地址占一行。http:www.zhaozhiyong.cn

注意：种子地址必须以类似于http的字符开头

3：(可选)：控制爬取的url范围，只爬取站内，在regex-urlfilter.txt 最后添加：+^http://([a-z0-9]*\.)*bbs.superwu.cn/[\s\S]*

4：nutch爬取数据   bin/crwal urls crawl 1
    crawl urls crawl 1
    urls：表示是种子目录
    crawl：表示是爬取文件的存储位置
    1：表示是爬取的层次

5.nucth爬取生成的目录
    在爬取的时候指定的crawl中会有下面几个目录
    crawldb：存储的是待爬取的url
        查看目录数据：nutch readdb crawl/crawldb -stats -sort
    linkdb：存储的是反链信息
        查看目录数据：nutch readlinkdb crawl/linkdb -dump links
    segments：存储的是网站所有数据信息
        查看目录数据：nutch readseg -dump crawl/segments/20150906090648 sgedb

    一个segment包括以下子目录:
        crawl_generate:包含需要抓取的网址列表
        crawl_fetch:包含每个抓取页面的状态
        content:包含每个抓取页面的原始内容
        parse_text:包含每个抓取页面的解析文本
        parse_data:包含每个页面的外部链接(外链)和元数据
        crawl_parse:包含网址的外部链接地址，用于更新crawldb数据库

6.查看nutch生成的数据
    nutch中的数据都是sequencefile格式的，除了使用上面的nutch命令查看之外
        还可以使用java代码读取这些文件
        参考资料<查看nutch生成的中间文件>
        注意：在使用提供的代码读取文件时，需要先使用more命令查看对应文件中存储的数据类型
            对应需要修改代码中27行中的value的类型。

四、在solr中对爬取的数据建立索引

在使用solr的之前做以下步骤：

1）：需要把nutch下的schema-solr4.xml拷贝到solr中

命令：cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf

2）：删除solr中的默认配置文件schema.xml，在把刚才拷贝过去的文件该名称
        cd /usr/local/solr-4.10.4/example/solr/collection1/conf
        rm schema.xml
        mv schema-solr4.xml schema.xml

3)：在schema.xml中添加一个字段配置
        <field name="location" type="string" stored="true" indexed="true"/>

或者也可以动态指定，
        例子：crawl -i -D "solr.server.url=http://192.168.1.170:8983/solr" urls crawl 1

1.启动solr

cd /usr/local/solr-4.10.4/example
    java -jar start.jar

2.

命令：crawl -i urls crawl 1

-i：表示会对爬取的数据建立索引，默认会在本机solr中建立索引，
        如果使用其他服务器上的solr，需要修改nutch-default中solr.server.url的值，
        建议在nutch-site.xml中进行覆盖。

3.检验

http://127.0.0.1:8983/solr/ 可以通过query 查看到content的内容

注意：如果把爬取层次改为2层，发先抓取的数据还是很少，那是因为在regex-urlfilter.txt中对url进行了过滤
        把url中包含？=之类的都忽略掉了。
        所以可以把这个配置直接注释掉，或者修改为其他规则。
        详细修改，参考：<regex-urlfilter解释.txt>

时间： 2024-10-12 20:02:58

大数据之nutch的相关文章

大数据测试之初识Hadoop

POPTEST老李认为测试开发工程师是面向测试的开发,也就是说,写代码就是为完成测试任务服务的,写自动化测试(性能自动化,功能自动化,安全自动化,接口自动化等等)的case或者开发测试工具完成不同类型的测试.其实自动化测试涉及面非常之广,目前来讲,case基本都可以写成自动化,而性能测试的脚本开发要围绕业务和协议特点来完成开发,并测试完成后依靠软件分析工具对被测试系统进行评估测试. 未来的技术趋势是云测试,大数据测试,安全性测试,这些要完成测试都需要自动化来完成,而自动化测试的case和工具需要

《大数据日知录：架构与算法》试读

时代背景记得CSDN之前有篇文章描写叙述了大数据成功预測了美国大选,"大数据"并不真正关心谁来当选下一届美国总统.只是全部的数据都显示:政治科学家和其它人相关人士都觉得奥巴马获得连任可能性比較大.本次的成功预言,展示了大数据强大的能量. 众所周知.企业数据本身就蕴藏着价值.可是将实用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题. 显然,您所掌握的人员情况.工资表和客户记录对于企业的运转至关重要.可是其它数据也拥有转化为价值的力量.一段记录人们怎样在您的商店浏览购物的视频.

大数据经验分享

大数据经验分享随着互联网的发展,尤其是近期互联网大会召开,再一次谈到大数据,大数据发展趋势已经成为一种必然.那么我们怎样去迎接这样一个新的数据时代?我们可以看到越来越多的人想学习大数据,可是却无从下手,根据自己的经验为大家分享一下大数据的知识: 一.大数据是什么?它的特征? 大数据指一般的软件工具难以捕捉.管理和分析的大容量数据. 大数据有4V特征:Volume(大量).Velocity(实时).Variety(多样).Value(价值). 大数据(big data),或称海量资料,指的是所涉

大数据：从入门到XX(二)

想了解APACHE 项目是怎么分类,又或者想了解APACHE项目是用什么语言开发的,直接访问APACHE官网中的By Category和By Programming Language就可以了,但是如果想同时看到每个项目的分类信息和开发语言,看看下面这张表就可以了.有几个小调整需要说一下: 1.原始数据中JavaScript.Javascript:NODE.JS.NODE.js都当作两种语言了(大小写不一致),在这张表里做了合并. 2.原始数据中有67个项目没有LANGUAGE相关的描述,在这张

Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

大数据工具集详

查询引擎一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集.直接使用HBase API.协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒. Ph

大数据工具集

类别名称官网备注查询引擎 Phoenix http://phoenix.incubator.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Stinger http://hortonworks.com/labs/stinger/ 原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架 http://tez.incubator.apache.org/ Presto http:/

【大数据论文笔记】大数据系统和分析技术综述

1.大数据处理与系统简介特征典型应用代表性的处理系统适用场景批量数据处理系统首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标 1.数据体量巨大2.数据精确度高3.数据价值密度低 1.互联网领域: a.社交网络 b.电子商务 c.搜索引擎2.安全领域 a.IT安全 b.欺诈检测 c.识别恶意软件和网络攻击模式3.公共服务领域 a.能源(eg.石油

大数据--第一章--概论

概论 B KB MB GB TB PB EB ZB 大数据的三大特征数量(Volume) 种类(Variety) 速度(Velocity) Apache Hadoop 黄色大象. Apache Lucene Nutch 网页抓取.解析功能.大规模分布式集群.负载均衡. 2003年Google两篇论文: Google File System MapReduce:Simplified Data Processing on Large Clusters