简易数据分析 | 开启数据采集之路

这是简易数据分析系列的第 1 篇文章。

前文说到，我会做一个数据分析的系列教程，面向纯小白，不写代码不写公式，搞定数据分析的第一步。教程的内容主要会从三个方向上进行延伸：数据采集，数据清洗和数据可视化。

今天我们就开始我们的数据采集之路。

数据采集听着高大上，其实对于普通人来说，就是自动化版的复制粘贴。

我们设想一个场景，打开网易云音乐，发现某个音乐的热门评论很好玩，特别想收集起来，我们一般怎么做？当然是复制粘贴，热门评论最多就十几条，手快一些的一分钟就收集完了。

如果数据量特别大怎么办？例如几百万几千万的数据，这个肯定不是个人能搞定的，必须要专业团队技术支持。

比如说 Google 百度这些搜索引擎公司，需要采集海量的内容，背后都是高性能的爬虫程序在运作；还有一些做大数据的公司，也得写爬虫去采集数据，这些工作，都是由专业的爬虫工程师去做的。

但是我们日常生活中，总会遇到一些数据量说大不大，说小不小的场景：

上学时某门课需要做数据调研，你想把某微博下的评论都采集起来，数据量也就几百条。手动复制粘贴吧，太累了，写个爬虫吧，自己也不会，卡在这里久久不能开始；

做运营工作时想收集一些参考数据，数据量也就几百几千，技术忙的写 bug 没时间给你做私人需求，导致分析工作一直拖延；

跳槽时不知道下家公司给的薪资待遇在业内是什么水平，搜索了几个招聘网站，结果一个网站一个数，没有一个统一的薪资分析平台。

对于这些数据量几千到一万的场景，我们日常生活中经常遇到，也不会涉及到多高端的内容：什么高并发爬虫系统，机器学习深度学习、大数据分析。

我们一般只是想把数据收集起来，然后看看几种统计数字，再做几个图表辅助我们思考和决策，我这次的课程目的，就是想解决这种日常需求，让大家快速的进入数据分析世界。

关于数据采集软件，经过我一段时间的使用的调研，首推 Web Scraper 这个浏览器插件。

推荐理由有这几个：

1.门槛足够低，只要你电脑上安装了 Chrome 浏览器就可以用

2.永久免费，无付费功能，无需注册

3.操作简单，点几次鼠标就能爬取网页，真正意义上的 0 行代码写爬虫

既然有这么多的优点，当然是赶紧安装啦。下一步开始我们的插件安装之旅。

1.安装 Chrome 浏览器

这个没啥好说的，Windows 电脑的各大应用商店都有最新版的 Chrome 浏览器，或者百度一下，首页一般都会有安装包地址，下载安装就好；

(为了减少兼容性问题，最好安装最新版本的 Chrome 浏览器)

2.下载 Web Scraper 插件

2.1 可以直接访问的同学，直接访问"Chrome 网上应用店"，搜索 Web Scraper 下载就可：

2.2 暂时无条件访问的，我们可以曲线救国一下，当然和上面比会稍微麻烦一些：

首先，我们访问 www.gugeapps.net 这个国内浏览器插件网站，搜索 Web Scraper，下载插件，注意这时候插件不是直接安装到浏览器上的，而是下载到了本地：

然后，我们在浏览器的的网址输入框里输入 chrome://extensions/ ，这样我们就可以打开浏览器的插件管理后台：

如果你是 Mac 用户：

我们找到下载好的 Web Scraper 插件，这个文件的后缀名为 .crx，我们把他改为 .zip

再切到浏览器的插件管理后台，打开右上方的开发者模式，把 Web Scraper.zip 这个文件拖进去，这样就安装好了；

一般这样安装会有一个红色的错误按钮，我们不用管它，直接忽略就行。

如果你是 windows 用户，你需要这样做：

1.把后缀为 .crx 的插件改为 .rar，然后解压缩

2.进入 chrome://extensions/ 这个页面，开启开发者模式

3.点击"加载已解压的扩展程序"，选择第一步中解压的文件夹，正常情况下就安装成功了。

到这里我们的插件就安装好了，先别急着用，我们先去探索一下 Chrome 浏览器的那些不为人知的功能。

3.浏览器的那些隐藏功能

作为普通的使用者，大家用浏览器就是查阅信息，浏览网页。但在开发者的眼里，Chrome 浏览器提供了非常强大的开发能力。在这里我给大家介绍几个常用的功能，以方便我们后续的学习。

3.1 开启开发者后台

这个功能我其实在旧文《造谣成本有多低？一行代码就可以截图造假》中提到过，想从普通浏览模式切换到开发者模式，只要按 F12 就可以实现，其实还有好几种方式切换出后台，但是太繁琐了，我在这里就不多说了，感兴趣的可以到原文里看看。

3.2 一行代码自由修改网页

这个也是旧文《造谣成本有多低？一行代码就可以截图造假》的内容，感兴趣的同学可以了解一下。

3.3 切换开发者后台的位置

控制台打开后，一般会在网页的下方显示，我们其实也可以切到网页的右边显示，具体的操作是点击后台面板右侧关闭按钮旁边的 … 按钮。

这里我为了演示效果把字体放大了，实际操作时字体你们的字体应该会小一些，并不影响使用。

3.4 用电脑浏览器模拟手机浏览器

用电脑浏览器模拟手机浏览器是一个很实用的功能。因为现在是移动互联网的时代了，大部分公司的网页都是优先支持手机屏幕，而且手机浏览器的数据结构更清晰更好抓取。

开启模拟手机也很简单，只要点击一下开启开发者后台左侧的手机切换图标，然后刷新就好了。

我们可以拿豆瓣这个网站演示一下。

这个功能我们除了后续课程会用到，当然，我们还可以做些别的事情，比如说上班时开个小屏幕偷偷摸鱼刷微博。当然，被老板抓住时别说是我教的。

好了，今天的准备内容就到这里了，下一期我们就开始学习 Web Scraper 的使用方法。

原文地址：https://www.cnblogs.com/web-scraper/p/web_scraper_start.html

时间： 2024-10-03 04:24:30

简易数据分析 | 开启数据采集之路的相关文章

Python数据分析、数据采集、数据可视化、图像数据处理分析视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

牵手《如果爱》，颜值ivvi开启品牌之路

在ivvi品牌发布半年之后,ivvi开启了自己的品牌之路. 6月11日下午, ivvi手机携手湖北卫视知名爱情真人秀节目<如果爱>,在湖北发布了新手机ivvi小i.<如果爱>第二季明星李光洙.钟丽缇.熊黛林.张檬.张伦硕.范世琦到场助阵. ivvi小i厚度仅4.9mm,在设计上采用smooth(顺滑)的设计理念,具有非常高的颜值.此外,小i无边框设计屏幕搭配2.5D弧面玻璃,拥有绝佳的手感.其"息屏拍照"技术,只需双击声音键即可拍照,内置美妆功能,设有韩系.甜美

简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器

这是简易数据分析系列的第 9 篇文章. 今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器. 如何只抓取前 100 条数据? 如果跟着上篇教程一步一步做下来,你会发现这个爬虫会一直运作,根本停不下来.网页有 1000 条数据,他就会抓取 1000 条,有 10W 条,就会抓取 10W 条.如果我们的需求很小,只想抓取前 200 条怎么办? 如果你手动关闭抓取数据的网页,就会发现数据全部丢失,一条都没有保存下来,所

简易数据分析 11 | Web Scraper 抓取表格数据

这是简易数据分析系列的第 11 篇文章. 今天我们讲讲如何抓取网页表格里的数据.首先我们分析一下,网页里的经典表格是怎么构成的. First Name 所在的行比较特殊,是一个表格的表头,表示信息分类 2-5 行是表格的主体,展示分类内容经典表格就这些知识点,没了.下面我们写个简单的表格 Web Scraper 爬虫. 1.制作 Sitemap 我们今天的练手网站是 http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=%C9%

Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16

这是简易数据分析系列的第 16 篇文章. 这期课程我们讲一个用的较少的 Web Scraper 功能--抓取属性信息. 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息.我们拿豆瓣电影250举个例子: 电影图片正常显示的时候是这个样子: 如果网络异常,图片加载失败,就会显示图片的默认文案,这个文案其实就是这个图片的属性信息: 我们查看一下这个结构的 HTML(查看方法可见 CSS 选择器的使用的第一节内容),就会发现图片的默认文案其实就是这个 <img/> 标签的 alt 属性

【python数据分析实战】电影票房数据分析(一)数据采集

目录 1.获取url 2.开始采集 3.存入mysql 本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析. 1.获取url 我们先打开猫眼票房http://piaofang.maoyan.com/dashboard?date=2019-10-22 ,查看当日票房信息, 但是在通过xpath对该url进行解析时发现获取不到数据. 于是按F12打开Chrome DevTool,按照如下步骤抓包再打开获取到的url:http://pf.maoyan.com/second-bo

开启c++之路

经典之序"hello world" 每一个学习语言的人都知道c++是其中最难的语言,但也有一句那就是学好c++其他的语言三天就能学会,这其中虽然有点夸张但也说明了c++的重要,它重在思想的锻炼,所以不管你将来学习什么语言我认为都应该对c++有一定的了解,今天让我们一起去学习它. 让我们从这个经典的c++程序开始我们的学习之路 //This is a c++ program#include<iostream> using namespace std; int main()

开启软件测试之路

从大四实习到毕业到如今,从app软件开发到软件测试,所有的一切感觉自己都是在蒙着眼走路,后面有人赶着走路.是时候静下心来想想自己该做什么,静下心来学点什么,如果再一直浮躁下去,终究如咸鱼一般,碌碌无为,不知道自己想要什么,不知道自己为什么而工作而学习. 从开发转到测试已经5个多月了,自己也决定了要一条路走到黑了,记录下自己的学习,自己的工作,相信一切会好的.给自己定个小小的目标,向自动化测试迈进!

2019北京物联网智慧城市大数据博览会开启中国之路

邀请函时间2019年05月16-18日地点中国?北京亦创国际会展中心4组织单位特邀单位:××× ×××商务部批准单位:北京市商务委员会主办单位:中国电子商会物联网技术产品应用专业委员会北京铭世博国际展览有限公司支持单位:××× ×××中国智能家居产业联盟中华物联网联盟国家信息化专家咨询委员会中国物联网产业协会承办单位:北京铭世博国际展览有限公司物联世界智慧全球物联网是建立在信息技术与网络技术广泛应用基础上,为改善民生.惠及百姓.实现"智慧物联"目标提供新动力的庞大