【03】基础:同种网页结构套用采集规则

请先安装爬虫软件。爬虫软件安装

经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。

回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机,然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。

在学会将xml文件转成Excel之前,先解决当下的一个疑问?如果要采集其他博主主页的微博,是要重新做过规则吗?非也~

用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,都可以套用该规则进行采集了。

为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。

以后用该规则抓取数据的时候就会运行所有的线索而不仅仅是样本网址。

前一个教程采集微博博主主页是将宝宝主页的网址作为样本网址来制定采集规则的。宝宝之前参加过很火的《奔跑吧兄弟》,现在我想采集兄弟团所有成员的微博主页,只要将他们主页网址当成新的线索添加给之前做的“weibo_博主主页”采集规则就OK了。

怎么添加线索?

第一季兄弟团各个成员的主页网址如下:

先进入集搜客官网,登录后点击右上角自己的用户名之后进入会员中心>爬虫管理>规则管理,点击主题名,进入线索管理页面。

看到“weibo_博主主页”下只有样本网址这一条线索。

单条添加

点击“添加线索”,输入线索网址后保存。

批量添加

用Excel存储线索网址

点击“批量导入线索”,添加附件,点击“批量导入”后添加成功!

添加了6条,加上原来的一个样本网址,总共7条线索,现在都是“待抓取”状态。

在这个页面,除了添加线索、还可以激活、去活以及删除线索。

如何运行线索?

运行采集规则就是运行规则里头的线索。

由上图可知,现在“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行这些线索要在DS打数机启动。

打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”都可以启动DS打数机进行抓取数据。

单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。

点击集搜后,待抓取线索有几条就输入几条,点击确定。

我们看到DS打数机马上在运行抓取了。

如果不知道待抓取线索有多少条,在DS打数机右击统计线索就可以了。

如何激活线索?

刚刚运行了“weibo_博主主页”这个采集规则,在会员中心看到这7条线索都是“抓取完成”的状态。

如果按上面的步骤在DS打数机中再次运行规则,这时候会提示没有线索了,那是因为刚刚已经运行这7条线索了。

要重新抓取这些线索只要重新将这些线索激活就可以了,激活以后这些线索的状态将会变成“待抓取”。

激活有两种方法——

规则管理激活

在规则管理选择要激活的线索后点击“激活”按钮。

DS窗口激活

到这里,看看刚刚运行“weibo_博主主页”这个采集规则的结果文件吧~

下一期将讲结果文件转成Excel,学完下一期你就已经入门了,只要不是复杂的网页你都可以采集了,所向披靡,是不是很激动。

时间: 2024-09-29 05:13:10

【03】基础:同种网页结构套用采集规则的相关文章

thinkphp学习笔记1—目录结构和命名规则

最近开始学习thinkphp,在下不才,很多的问题看不明白所以想拿出来,恕我大胆发在首页上,希望看到的人能为我答疑解惑,这样大家有个互动,学起来快点,别无他意,所谓活到老,学到老,希望各位不要见笑啊. 我的做法很简单,先从手册开始,手册是开发thinkphp作者辛勤劳动的成果,但是有些地方是在是不懂,如果有幸各位也遇到类似的问题希望能回复.thinkphp手册地址:http://doc.thinkphp.cn/manual.html 1.框架目录 在章节1.6 目录结构,内容如下: 新版的目录结

Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor

HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取. HtmlExtractor是为大规模分布式环境设计的,采用主从架构,主节点负责维护抽取规则,从节点向主节点请求抽取规则,当抽取规则发生变化,主节点主动通知从节点,从而能实现抽取规则变化之后的实时动态生效. 如何使用? HtmlExtractor由2个子项目构成,html-extractor和html-extractor-web.

如何使用HtmlExtractor实现基于模板的网页结构化信息精准抽取?

首先,我们新建一个maven工程,在pom.xml中加入HtmlExtractor依赖,如下所示: <dependency>     <groupId>org.apdplat</groupId>     <artifactId>html-extractor</artifactId>     <version>1.1</version> </dependency> 接着,我们加入日志配置文件,在src/main/

语言的基础是一组记号和一组规则

是用于编写计算机程序的语言. 语言的基础是一组记号和一组规则. 根据规则由记号构成的记号串的总体就是语言. 在程序设计语言中,这些记号串就是程序. 程序设计语言包含三个方面,即语法.语义和语用. 语法表示程序的结构或形式,亦即表示构成程序的各个记号之间的组合规则,但不涉及这些记号的特定含义,也不涉及使用者.语义表示程序的含义,亦即表示按照各种方法所表示的各个记号的特定含义,但也不涉及使用着,语用表示程序与使用的关系. 1 package Com.TableTest; 2 3 class Elec

Linux基础概念-----目录结构

/bin    二进制,可执行的命令 /sbin   可执行命令,通常管理员有权限使用 /boot   引导,操作系统用于引导系统启动的文件    如:内核  grup /dev    设备文件所在的目录    如:硬盘等 Linux的设备类型: 字符设备:键盘 鼠标等  文件类型表现:c 块设备:硬盘  文件类型表现:b(block) 读取文件时,其实是访问的一个数据块 /etc    配置文件 /home   普通用户的家目录 /root   管理员的家目录 /lib    库文件 /lib

结构体对齐规则

结构体对齐规则: (1)第一个成员在与结构体变量偏移量为0处 (2)其他成员变量需要对齐到某个数字(对齐数)的整数倍的地址处 对齐数=编译器默认的一个对齐数与该成员大小的较小值 VS中默认为8 (3)结构体总大小为最大对齐数(每个成员变量除了第一个成员都有一个对齐数)的整数倍 (4)如果嵌套了结构体的情况,嵌套的结构体对齐到自己的最大对齐数的整数倍,结构体的整体大小就是所有最大对齐数(含嵌套结构体的对齐数)的整数倍 #include <stdio.h> #include <stddef.

动态网页数据的采集方案

我在上一篇文章中介绍了使用ScrapySharp快速从网页中采集数据,这种方式是通过直接发送的Http请求来获取的原始页面信息,对于静态网页非常有效,但还有许多网站中的页面内容并非全部存放在原始的页面中,很多内容是通过javascript来动态生成的,这些数据用前面的方式就抓取不到了.本文这里就简单的介绍一下动态网页的采集方案. 对于这样的网页数据的采集,往往是利用一个浏览器引擎来实现整个页面的加载,输出加载完后的完整页面,然后就可以利用ScrapySharp等工具解析了.常用有如下几种方式:

DEDECMS采集规则,过滤,替换文章内的部分内容

1.采集去除链接[Copy to clipboard]CODE:{dede:trim}]*)>([^<]*){/dede:trim}--------------------------------让field:title 标题突破30这个长度,修改代码的方法找到./include/inc_arcpart_view.php行291 :if($titlelen=="") $titlelen = 30;修改为if($titlelen=="") $titlele

ThinkPHP目录结构和命名规则

目录结构: 命名规则: 使用ThinkPHP开发的过程中应该尽量遵循下列命名规范: 类文件都是以.class.php为后缀(这里是指的ThinkPHP内部使用的类库文件,不代表外部加载的类库文件),使用驼峰法命名,并且首字母大写,例如DbMysql.class.php: 确保文件的命名和调用大小写一致,是由于在类Unix系统上面,对大小写是敏感的(而ThinkPHP在调试模式下面,即使在Windows平台也会严格检查大小写): 类名和文件名一致(包括上面说的大小写一致),例如 UserActio