一大波可视化网页采集完整过程记录新手也能一看就会

这几年工作中经常用到各种各样的网页爬虫，过年期间整理了一下，把一些比较实用的采集过程贴成动态GIF图片小视频，供以后自己使用。也希望方便到大家。

这里以八爪鱼为演示，没接触过可视化网页采集的话，不妨跟着动图动手做一做，理解起来更容易些。

下面都是些耗时在1~2分钟左右的演示，包括完整的规则配置过程、实时运行效果。和用代码实现爬虫相比，可视化的优点就是省时间，不是特别麻烦的情况，一般几分钟做出来很正常。下面开始：

先来做一个百度搜索结果的爪取规则：
* 点击查看百度某关键词所有搜索结果爪取演示
这个规则很简单，创建自动翻页循环，创建列表循环。需要注意的是，每个点击动作都是Ajax，所以要记得设置上ajax延时，就不会出错了。
要想获得真实链接，可以循环点开“百度快照”，在其中可以提取出来更多完整的信息，加载速度还很快。

论坛采集。这里以天涯论坛为例：
动图演示天涯论坛贴子和回贴的获取方法
按上面动图演示的，大概1分钟左右就能完成规则制作。
自动翻页的XPATH进行了自定义，因为智能识别的不准确，改成//a[text()=‘下页‘] 才能正确点击到翻页按钮。修改方法可以参考动图中的演示。
tips：一般不需要修改xpath，如果运行的时候数据爪不准确，可以自定义一下xpath校准。XPATH的使用方法可以参考另一篇文章《八爪鱼在哪里设置xpath》

百度贴吧采集：
动图演示某贴吧贴子列表的获取方式
这里演示某个贴吧内所有贴子列表的抓取。
贴子内正文和回贴详情，也是一样的制作方法。
需要注意的是，给“点击翻页”设置上3－5秒的ajax延时，就不会出错了。规则制作大约耗时1分钟左右。
新手做网页采集，对于AJAX可能比较不好理解。但是有些AJAX动态加载的情况，必须要设置好延时才行。
有一个方法，可以让新手不受ajax影响：方法就是给每个点击动作设置3－5秒的ajax延时，如果这个点击是动态加载，设置了延时就不会出错；如果不是动态加载，还可以限制新网页的打开时间。
如果不想浪费时间在判断ajax上，就都设置上延时，就可以了。

文章的评论采集和分析：
动图演示网友评论的采集方法
以某篇某篇新闻文章读者评论为例，演示评论采集方法。从制作规则到完成采集耗时约1分10秒，实现了多个评论数据字段的抓取和自动翻页的效果。
实际使用中，可以在第一步填入多条网址批量处理。

对于抓到的评论，可以一键进入智能可视化分析，一键生成图表、对文本进行文本情感语义分析、关键词提取等。
动图演示对评论进行可视化分析的方法
后面举例获取的数据，都可以用相同的方法对数据进行分析。

动图演示今日头条文章列表的获取方法
上图演示的是今日头条首页，瀑布流文章列表的抓取。自动下翻10次，最终获取到77篇文章。规则制作耗时约40秒。

动图演示今日头条文章正文和标签的获取方法
第一步中，一次可以填写上万条文章网址。为了保证执行速度，给“打开网页”步骤设置了5秒延时限制，限制网页在5秒内加载完成。
这个规则中，正文文本和标签两个字段是手动添加的。正文文本都在section元素内，采集到Section中的p元素，就是干净的正文文本。所以手动向流程中拖拽一个“循环”步骤，在“不固定元素”中填写XPATH：//section/p，意为section元素内的所有p元素。“提取数据”步骤中设置数据合并方式为：同一字段多次提取合并为一行。
标签的提取也是同样的原理。可以参考动图里的演示，试一试。
网页数据采集的方法多种多样，除了这样手动提取数据的方法，你也可以试试直接在下面内置浏览器中点选，说不定更方便更好用。

微博按关键词搜索：
动图演示微博某关键词搜索结果的获取方法
这个规则是内置现成的，叫“简易采集”。上面需要自己做流程的是自定义采集。
简易采集不需要自己制作，填上选项就行，一般30秒就能配置完成。
微博这个网页采集自己做规则不好做，登录页面有难度。所以用内置封装好的规则，不仅快而且准确不出错。

微博评论采集
这个规则制作起来有点麻烦，复杂一点的规则我都传到网盘了

，需要的话可以到我的百度网盘自己下载：https://pan.baidu.com/s/1d7thL0

运行效果：

点击从头播放完整动图

京东的商品评论：
动图演示京东评论的采集方法
这个规则是内置现成的，不需要自己制作。20秒就能配置完成。

总结一下，可视化的工具使用方便，不懂代码也可以做出爬虫。如果懂得一些网页知识、XPATH、正则表达式以等，熟能生巧，可以让采集结果更准确，更加贴合需求。

最最后，欢迎收藏、转载，希望对大家有帮助。

原文地址：https://www.cnblogs.com/lansexiatian/p/8485723.html

时间： 2024-10-11 07:43:32

一大波可视化网页采集完整过程记录新手也能一看就会

一大波可视化网页采集完整过程记录新手也能一看就会的相关文章

小白30分钟学会网页采集基础教程

【转】android 最新 NDK r8 在window下开发环境搭建安装配置与使用详细图文讲解，完整实际配置过程记录(原创)

一个网页从开始到最终显示的完整过程

一个问题完整解决过程记录

融资晚报：一大波创业公司获得融资

URL 加载到页面的完整过程

一大波Java来袭（二）异常处理

戴尔笔记本win8.1+UEFI下安装Ubuntu14.04过程记录

Oracle SQL语句执行完整过程：

一大波可视化网页采集完整过程记录 新手也能一看就会

一大波可视化网页采集完整过程记录 新手也能一看就会的相关文章

一大波可视化网页采集完整过程记录新手也能一看就会

一大波可视化网页采集完整过程记录新手也能一看就会的相关文章