小白30分钟学会网页采集基础教程

首先,以某个多页(需要自动翻页)表格数据的采集为例,先演示一次网页采集的完整的过程:

点击从头播放完整动图

演示这里使用的是八爪鱼,依次点击表格某一行的每个字段,可以自动识别出其他所有数据行,并自动创建循环列表;点击翻页按钮,选择“循环点击下一页”动作,就能自动创建翻页循环。

网页信息爪取相关的工具有很多,有需要代码配合使用的,也有几乎不用代码的。其实实现网页采集所用的代码越少,效率越高,维护起来越简单。今天以八爪鱼为例,演示这个工具的一些基础知识:

1:基础操作
1.1 新建任务

点击从头播放完整动图

1.2 导入规则

点击从头播放完整动图

制作好的规则是可以导出和导入的。规则文件是.otd后缀的文件,在安装了八爪鱼的系统中,双击可以启动导入;也可以在软件里批量导入。

1.3 切换浏览器内核(手动或自动)

点击从头播放完整动图

1.4 定时自动启动演示

点击从头播放完整动图

在电脑上将任务设置完成并提交到云服务执行云采集之后,可以关闭软件,关闭电脑进行脱机采集,真正的实现无人值守。除此之外云采集通过云服务器集群的分布式部署方式,多节点同时进行作业,可以提高采集效率,并且可以高效的避开各种网站的IP封锁策略。

2:基本步骤
2.1 打开网页
点击查看“打开网页”步骤的动图演示
在第一步填写网址的文本框中,可以设置上万条网址,实现批量操作。
在分布式云采集中,单线程单机采集完成1个网页的时间,分布式可完成6-10个网页抓取,相当于6-10台电脑同时运行;
在分布式私有云中,这个速度可以提高到30~100倍。相当于1小时完成最慢30个小时最快100个小时的采集量。换成数值的话,单机采集1万数据的时间,私有云可以完成约30万~100万。

2.2 点击元素(和自动循环翻页演示)
点击查看“点击元素”步骤的动图演示
在内置浏览器中点击网页任意位置,都可以选择“点击”操作,在采集流程中自动生成一个点击步骤。
如果,自动生成的点击步骤不能准确点击到元素,也可以手动修改Xpath,像上面演示中,在“自定义”选项中进行修改。
XPATH的使用方法可以参考另一篇文章《八爪鱼在哪里设置xpath

2.3 提取数据
动图演示某汽车销售公司列表网页数据的抓取过程
演示中,我们需要自动地提取出列表中,每一个公司的信息。
当点击公司名称的时候,程序自动识别出其他公司(其他公司名称底色加深了),并提示“其他15个同类元素”,选择“选中全部”操作,就能自动为每个公司的数据生成循环自动处理。
不妨找一个类似的网页试试看,比如汽车之家等网站。

2.4 自动输入文本
网页中,一般文本框都是input元素或者textarea元素。如果点击某个文本框,没有“输入文字”操作可以选择,不妨多试几次,可能是没有点准这个INPUT 或 textarea元素。
点击查看“输入文本”步骤的动图演示

还可以设置一个文本列表,自动循环批量输入文本
点击查看循环“输入文本”步骤的动图演示

2.5 鼠标悬停
有些动态加载,鼠标放上才会加载并显示内容的情况,就需要“鼠标悬停”功能来实现。如下图:
动图演示淘宝动态加载店铺评分的采集
淘宝网搜索结果中,店铺三项评分是鼠标放上动态加载的,ajax延时设置为1秒,如果本地网络条件不好,1秒不够加载的话,可以设置的更长一点。
鼠标悬停不是常用的功能,可能不是特别好理解,建议感兴趣的话,拿来淘宝网页实际模仿一下。

2.6 判断条件
点击查看“判断条件”步骤的动图演示
演示中循环打开两个网页,分别是“百度网”和“新浪网”。
手动添加一个“判断条件”模块,设置上条件,使程序自动区分不同的网站。

以上就是常用的几种基本步骤。对于新手入门学习,一般可以满足需求了。

抓到的数据还可以直接进行可视化分析、文本语义分析,让文字“说话”:

点击从头播放完整动图

更多实例演示,我都放在另一篇文章里了:《一大波可视化网页采集完整过程记录 新手也能一看就会

原文地址:http://blog.51cto.com/13433984/2074398

时间: 2024-08-06 18:42:24

小白30分钟学会网页采集基础教程的相关文章

【转载】【grunt整合版】30分钟学会使用grunt打包前端代码

[grunt整合版]30分钟学会使用grunt打包前端代码 grunt 是一套前端自动化工具,一个基于nodeJs的命令行工具,一般用于:① 压缩文件② 合并文件③ 简单语法检查 对于其他用法,我还不太清楚,我们这里简单介绍下grunt的压缩.合并文件,初学,有误请包涵 准备阶段 1.nodeJs环境 因为grunt是基于nodeJs的,所以首先各位需要安装nodeJS环境,这块我们便不管了http://www.cnblogs.com/yexiaochai/p/3527418.html 2.安装

30分钟学会XAML

1.狂妄的WPF 相对传统的Windows图形编程,需要做很多复杂的工作,引用许多不同的API.例如:WinForm(带控件表单).GDI+(2D图形).DirectX API(3D图形)以及流媒体和流文档等,都需要不同的API来构建应用程序. WPF就是看着上面的操作复杂和不爽,自己决定做老大,想用DirectX技术涵盖一切,于是想要将上述的东西全部融合到自身,减少复杂度,让编程变得爽起来的技术. 而不可否认的是,WPF虽然很狂妄,但是这种技术里面还是有不少的可圈可点的东西.而支持WPF狂妄的

30分钟学会EventBus3.0详解(二)(EventBus3.0的使用)(by星空武哥)

转载声明原创地址:http://blog.csdn.net/lsyz0021/article/details/52094855 30分钟学会EventBus3.0详解(一)(引入和初始化EventBus3.0) 30分钟学会EventBus3.0详解(二)(EventBus3.0的使用) 写完上篇文章,这篇这心不想写了,但是每周至少一篇的习惯不能改啊!虽然EventBus使用起来很简单,但是种类特别多,比如他有粘性事件和非粘性事件,他们又都含有四种模式,并且还要测试在ui线程和非ui线程,所以情

(转)30 分钟学会 Flex 布局

原文链接:https://zhuanlan.zhihu.com/p/25303493 最简单实用的 Flex 布局教程,30 分钟让你学会 Flex 语法基础. 为什么我要写这一篇关于 Flex 布局的教程? 因为它十分简单灵活,区区简单几行代码就可以实现各种页面的的布局,以前我在学习页面布局的时候我深受其 float.display.position 这些属性的困扰.然而学习 Flex 布局,你只要学习几个 CSS 属性,就可以写出简洁优雅复杂的页面布局. 本教程适合人群: 前端小白,不太明白

30分钟学会正则表达式

正则表达式30分钟入门教程 版本:v2.33 (2013-1-10) 作者:deerchao 转载请注明来源 原地址:http://www.jb51.net/tools/zhengze.html#mission 目录 跳过目录 本文目标 如何使用本教程 正则表达式到底是什么东西? 入门 测试正则表达式 元字符 字符转义 重复 字符类 分枝条件 反义 分组 后向引用 零宽断言 负向零宽断言 注释 贪婪与懒惰 处理选项 平衡组/递归匹配 还有些什么东西没提到 联系作者 网上的资源及本文参考文献 更新

30分钟学会iOS 11开发环境xcode 9图文教程

关注微信公众号[异步图书]每周送书 Xcode是一款功能全面的应用程序,通过此工具可以轻松输入.编译.调试并执行Objective-C程序.如果想在Mac上快速开发iOS应用程序,则必须学会使用这个强大的工具的方法.在本文容中,将详细讲解Xcode 9开发工具的基本知识,为读者步入本书后面知识的学习打下基础. 1.1 基本面板介绍 使用Xcode 9打开一个iOS 11项目后的效果如图1-1所示. 图1-1 打开一个iOS 11项目后的效果(1)调试区域:左上角的这部分功能是控制程序编译调试或者

教程:30分钟学会Adobe Premiere

原文地址:http://tieba.baidu.com/p/2785313831 视频教程地址

10分钟学会Python函数基础知识

看完本文大概需要8分钟,看完后,仔细看下代码,认真回一下,函数基本知识就OK了.最好还是把代码敲一下. 一.函数基础 简单地说,一个函数就是一组Python语句的组合,它们可以在程序中运行一次或多次运行.Python中的函数在其他语言中也叫做过程或子例程,那么这些被包装起来的语句通过一个函数名称来调用. 有了函数,我们可以在很大程度上减少复制及粘贴代码的次数了(相信很多人在刚开始时都有这样的体验).我们可以把相同的代码可以提炼出来做成一个函数,在需要的地方只需要调用即可.那么,这样就提高了代码的

10分钟学会 Python 函数基础知识

一.函数基础 简单地说,一个函数就是一组Python语句的组合,它们可以在程序中运行一次或多次运行.Python中的函数在其他语言中也叫做过程或子例程,那么这些被包装起来的语句通过一个函数名称来调用. 有了函数,我们可以在很大程度上减少复制及粘贴代码的次数了(相信很多人在刚开始时都有这样的体验).我们可以把相同的代码可以提炼出来做成一个函数,在需要的地方只需要调用即可.那么,这样就提高了代码的复用率了,整体代码看起来比较简练,没有那么臃肿了. 函数在Python中是最基本的程序结构,用来最大化地