web scraper——简单的爬取数据【二】

web scraper——安装【一】

在上文中我们已经安装好了web scraper现在我们来进行简单的爬取，就来爬取百度的实时热点吧。

http://top.baidu.com/buzz?b=1&fr=20811

文本太长,大部分是图片,所以上下操作视频吧,视频爬取的是昵称不是百度热点数据

链接：https://pan.baidu.com/s/1W-8kGDznZZjoQIk1e6ikfQ
提取码：3dj7

爬取步骤

创建站点

打开百度热点，ctrl+shit+i进入检测工具,打开web scraper创建站点

进入创建站点页面站点名称和爬取地址点击创建站点即可

如果要爬取分页数据那就将参数写成范围的如:

想要爬取微博某博主关注列表的1-5页的粉丝信息,通过url的跳转发现微博关注列表和<number>数字有关

https://weibo.com/p/1003061752021340/follow?relate=fans&page=<number>

所以只要把<number>写成一个范围的即可

https://weibo.com/p/1006051234552257/follow?relate=fans&page=[1-5]

爬取数据

首先创建一个element的select

创建element信息

select选择最外层的盒子,确认无误后点击Done selecting!

然后回到web scraper控制台,查看信息无误后勾选multiple确认无误后,创建element的select

爬取自己想要的信息,点击进入hotList里面,然后继续创建select选择

填写具体的select信息,并继续通过select来进行选择需要的数据

这时候页面的范围会变为黄色,鼠标移动到自己需要的信息处会有绿框将信息圈出来

点击确认后会变为红色的,再次选择相同的会自动识别将同样标签下的包围起来,确认是自己需要的信息后直接Done selecting!

再次转到web scraper的控制台后,确认无误即可保存

运行脚本,进行采集

默认配置即可,想修改也可以的,我一般直接默认的

点击开始脚本后,会将采集的页面弹出,采集完成右下角会出现提示,采集过程中点击refresh可以查看采集的数据

采集的数据

导出数据

确认数据没有错误,是自己需要的即可,进行下载,以csv格式导出

点击Downolad now!即可下载

数据内容

到这里使用web scraper进行数据采集就结束了

原文地址：https://www.cnblogs.com/wangyang0210/p/10338574.html

时间： 2024-10-07 19:25:11

web scraper——简单的爬取数据【二】的相关文章

【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜

实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install lxml) IDEA开发工具:PyCharm_2017.3 Python版本:Python3 期望结果:爬取出排行版歌名以及对应歌手运行效果图: 音乐排行榜: 爬取数据结果图: 像这种简单的爬取就没必要使用Scrapy框架进行处理,是在有点大材小用,不过如果你刚开始学Scrapy的话,拿这些简单的练

借助Chrome和插件爬取数据

工具 Chrome浏览器 TamperMonkey ReRes Chrome浏览器 chrome浏览器是目前最受欢迎的浏览器,没有之一,它兼容大部分的w3c标准和ecma标准,对于前端工程师在开发过程中提供了devtools和插件等工具,非常方便使用.在爬取数据的过程中,最常用的应该是开发工具中的Element.Source和Network功能,分别查看DOM结构,源码和网络请求.同时,有很多基于Chrome浏览器的插件又给我们赋予了浏览器级别的能力,来处理数据. TamperMonkey Ta

使用HttpClient+Json解析器爬取数据并存入数据库

一.题目要求说明:这里我只展示爬取数据的代码,将可视化结果与统计数据结合,实时显示当前最新数据只需将这篇博客代码和我那篇使用Echarts可视化数据库数据结合即可二.思路同学思路:我的大部分同学思路是使用HttpClient+Jsoup获取并解析目标页面的数据,然后调用Dao层中的方法将数据筛选并存入数据库中我的思路:我直接使用了一个网上的一个最新疫情数据Json的目标网页,然后使用HttpClient获取该Json格式数据,然后使用Json解析器将数据分离,然后调用Dao层中的方法将

基于selenium实现自动化爬取数据

基于selenium实现自动化爬取数据如果想具体查看selenium自动化模块的更多功能请看我的博客测试分类中有介绍 selenium 概念:基于浏览器自动化的模块自动化:可以通过代码指定一系列的行为动作,然后将其作用到浏览器中. pip install selenium selenium和爬虫之间的关联 1.便捷的捕获到任意形式动态加载的数据(可见即可得) 2.实现模拟登录谷歌驱动下载:http://chromedriver.storage.googleapis.com/index.ht

Python爬虫之简单的爬取百度贴吧数据

首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包之后我们定义一个名叫BaiduSpider类用来爬取信息属性有 url:用来爬取的网址 headers:请求头 class BaiduSpider(object): def __init__(self): self.url = 'http://tieba.baidu.com/f?kw={}&pn={}' self.headers = {'User

spark学习进度6-Python爬取数据的四个简单实例

今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法. 然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简单的,以后再加大难度(用idle编码): (1)京东商品页面爬取: 链接:https://item.jd.com/2967929.html 代码解析: 首先r是一个response对象: r.status_code返回一个值,如果是200的话则正常,如果时候503的话,则抛出异常,调用该方法的目的是

网站爬取-案例二：天猫爬取( 第一卷：首页数据抓取)

说到网站数据的爬取,目前为止我见过最复杂的就是天猫了,现在我想对它进行整站的爬取我们先来看下天猫主页的界面天猫页面很明显是动态页面所以我们需要用selenium模块首先我们抓取下行业列表,留作之后的深度爬取我们来看下结果: 看到商品链接和行业列表的完美展现了吧可是当前页面并没抓取完毕,我们现在看下首页还有什么内容我们顺带抓取下发先并没有我们想要的东西,说明页面没有抓取完毕,熟悉网站制作的同僚们因该知道这样的页面都是用OVERFLOW:hidden的方式来做的布局,所以我们可以利用J

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

问题描述: 在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getElementsByClass("class的值"),这种方法获取不到想要的数据. 爬取网站页面结构如下: 其中文章列表的div为:<div class="am-cf inner_li inner_li_abtest"></div> 我们可以看到其class的值为:am-cf inner_li inner_li_abtest.带空格的

爬虫项目案例讲解案例二：定位、爬虫、定位页面元素、分别定位、简单处理抓取数据（有总结）

1.scrapy shell [要爬取的网址]他可以很直观的反馈给你要定位的元素是否可以定位到2.打开后然后再把:response.xpath("//*[@id=\"ml_001\"]/table/tbody/tr[1]/td[1]/a/text()").extract():语句写入,看如果可以返回值说明可以定位到yield 作用:和return类似总体过程如下:1.cd part6(转到某个project下)scrapy startproject [名字1]cd