这几年工作中经常用到各种各样的网页爬虫,过年期间整理了一下,把一些比较实用的采集过程贴成动态GIF图片小视频,供以后自己使用。也希望方便到大家。
这里以八爪鱼为演示,没接触过可视化网页采集的话,不妨跟着动图动手做一做,理解起来更容易些。
下面都是些耗时在1~2分钟左右的演示,包括完整的规则配置过程、实时运行效果。和用代码实现爬虫相比,可视化的优点就是省时间,不是特别麻烦的情况,一般几分钟做出来很正常。下面开始:
先来做一个百度搜索结果的爪取规则:
* 点击查看百度某关键词所有搜索结果爪取演示
这个规则很简单,创建自动翻页循环,创建列表循环。需要注意的是,每个点击动作都是Ajax,所以要记得设置上ajax延时,就不会出错了。
要想获得真实链接,可以循环点开“百度快照”,在其中可以提取出来更多完整的信息,加载速度还很快。
论坛采集。这里以天涯论坛为例:
动图演示天涯论坛贴子和回贴的获取方法
按上面动图演示的,大概1分钟左右就能完成规则制作。
自动翻页的XPATH进行了自定义,因为智能识别的不准确,改成//a[text()=‘下页‘] 才能正确点击到翻页按钮。修改方法可以参考动图中的演示。
tips:一般不需要修改xpath,如果运行的时候数据爪不准确,可以自定义一下xpath校准。XPATH的使用方法可以参考另一篇文章《八爪鱼在哪里设置xpath》
百度贴吧采集:
动图演示某贴吧贴子列表的获取方式
这里演示某个贴吧内所有贴子列表的抓取。
贴子内正文和回贴详情,也是一样的制作方法。
需要注意的是,给“点击翻页”设置上3-5秒的ajax延时,就不会出错了。规则制作大约耗时1分钟左右。
新手做网页采集,对于AJAX可能比较不好理解。但是有些AJAX动态加载的情况,必须要设置好延时才行。
有一个方法,可以让新手不受ajax影响:方法就是给每个点击动作设置3-5秒的ajax延时,如果这个点击是动态加载,设置了延时就不会出错;如果不是动态加载,还可以限制新网页的打开时间。
如果不想浪费时间在判断ajax上,就都设置上延时,就可以了。
文章的评论采集和分析:
动图演示网友评论的采集方法
以某篇某篇新闻文章读者评论为例,演示评论采集方法。从制作规则到完成采集耗时约1分10秒,实现了多个评论数据字段的抓取和自动翻页的效果。
实际使用中,可以在第一步填入多条网址批量处理。
对于抓到的评论,可以一键进入智能可视化分析,一键生成图表、对文本进行文本情感语义分析、关键词提取等。
动图演示对评论进行可视化分析的方法
后面举例获取的数据,都可以用相同的方法对数据进行分析。
动图演示今日头条文章列表的获取方法
上图演示的是今日头条首页,瀑布流文章列表的抓取。自动下翻10次,最终获取到77篇文章。规则制作耗时约40秒。
动图演示今日头条文章正文和标签的获取方法
第一步中,一次可以填写上万条文章网址。为了保证执行速度,给“打开网页”步骤设置了5秒延时限制,限制网页在5秒内加载完成。
这个规则中,正文文本和标签两个字段是手动添加的。正文文本都在section元素内,采集到Section中的p元素,就是干净的正文文本。所以手动向流程中拖拽一个“循环”步骤,在“不固定元素”中填写XPATH://section/p,意为section元素内的所有p元素。“提取数据”步骤中设置数据合并方式为:同一字段多次提取合并为一行。
标签的提取也是同样的原理。可以参考动图里的演示,试一试。
网页数据采集的方法多种多样,除了这样手动提取数据的方法,你也可以试试直接在下面内置浏览器中点选,说不定更方便更好用。
微博按关键词搜索:
动图演示微博某关键词搜索结果的获取方法
这个规则是内置现成的,叫“简易采集”。上面需要自己做流程的是自定义采集。
简易采集不需要自己制作,填上选项就行,一般30秒就能配置完成。
微博这个网页采集自己做规则不好做,登录页面有难度。所以用内置封装好的规则,不仅快而且准确不出错。
微博评论采集
这个规则制作起来有点麻烦,复杂一点的规则我都传到网盘了
,需要的话可以到我的百度网盘自己下载:https://pan.baidu.com/s/1d7thL0
运行效果:
京东的商品评论:
动图演示京东评论的采集方法
这个规则是内置现成的,不需要自己制作。20秒就能配置完成。
* 百度知道某关键词最新提问
* 百家号某作者全部文章列表爪取演示 用这个获取同行作者的所有文章列表(包括标题和网址)
* 百家号文章正文爪取演示 简单筛选后,再用这个获取每篇文章的正文、标签
* 知乎某关键词搜索
* 点击查看百度搜索风云榜实时热点top50爪取演示
* 点击查看贴吧热议榜top20爪取演示
* 点击查看网易文章24小时排行榜爪取演示
* 点击查看新浪博客24小时排行榜爪取演示
* 点击查看新浪财经某个表格的爪取演示
总结一下,可视化的工具使用方便,不懂代码也可以做出爬虫。如果懂得一些网页知识、XPATH、正则表达式以等,熟能生巧,可以让采集结果更准确,更加贴合需求。
最最后,欢迎收藏、转载,希望对大家有帮助。
原文地址:https://www.cnblogs.com/lansexiatian/p/8485723.html