爬虫小项目！适合有基础的！爬取葡萄酒评分！哪个阶段和那种酒呢

葡萄酒，可能对于小编来讲不算陌生，但是也算陌生！毕竟这种酒还是离不开聚会啥的！葡萄酒的等级也是不一样的！那种阶段的人适合喝那种阶段的酒，这个是有讲究的！所以今天我们来走进葡萄酒的市场吧！

接下来是爬取的数据是这样的！

下载下来之后

内容是这样的

进群：548377875 即可获取数十套PDF哦！

一共有150929条记录

数据集的描述是这样的：

在观看Somm（侍酒师纪录片）之后，数据及提供者想知道如何创建一个预测模型，通过像侍酒师那样的盲品来鉴别葡萄酒。第一步是收集一些数据来训练一个模型。他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。该模型虽然不能品尝葡萄酒，但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。

数据探索

我们使用pandas读取这个文件：

我们查看一下前五行数据：

删除掉本次分析用不到的字段后再次看看情况：

看一下每个字段的类型：

发现评分和价格是数值型的，我们计算时候就不用转换类型了~

我们看一下各字段的数据缺失情况：

本想把有缺失值的记录去掉，去掉后发现只有US的葡萄酒信息，所以没去除存在缺失值的记录

葡萄酒的评分情况

我们通过绘制直方图查看评分分布情况：

发现基本符合高斯分布情况，评分大多集中在85~90分

通过筛选发现确实是有特别昂贵的葡萄酒（这里暂且不管这个价格数据是采集异常还是真的这么贵）

为了可视化到主要的部分，我们选中大部分的价格重新做可视化

这样就可以看到，大部分的价格是在0-100（好像数据集提供者没告诉我价格的单位）

为了买到满意的葡萄酒，我们看看葡萄酒的性价比

简单定义为性价比 = 评分/价格

结果发现计算出的价格低的明显性价比高

我们看看总体上葡萄酒价格和评分的关系：

发现评分相同的葡萄酒，价格还是差异挺大，特别是评分较高的葡萄酒价格的差异

从图中也可以看出，有几个离群值，他们大多价格很高！

葡萄酒基本来自哪些国家

我们看到，生产葡萄酒的五个大国是吗，美国、意大利、发过、西班牙、智利共和国。

为了更直观凸显他们的比例，我们绘制饼图：

发现美国真是占据了葡萄酒的半壁江山啊

应该是这个数据收集者没收集到中国的数据，我们也是葡萄酒大国之一啊！

看看这些国家在全球的分布（点的大小代表葡萄酒品种多）：

除去美国最多，我们看看其次的几个：

（以上两个图是用Tableau画的）

酿造葡萄酒的葡萄品种

我这个不懂酒的程序猿马上查了一下前三的葡萄！

为了看一下这些葡萄使用的比重，做个饼图：

发现前三种占据了1/4

后面还有使用较少的名称堆叠在了一起

酒庄信息

我们接下来看看酒庄信息：

前五的葡萄酒品种最多

分别是：

1.威廉斯莱酒庄

来源：

http://baijiahao.baidu.com/s?id=1559415099145034&wfr=spider&for=pc

2.特斯坦罗萨酒厂

3.DFJ Vinhos

来源：http://cache.baiducontent.com/c?m=9d78d513d99515f74fede53a564a8d3b584381132ba7a7020ed0843e967328355321a3e52878564291d27d141cb20c19afe736056f5e7bebdd9bc9118efec97478c93034074ddb1e0f8245b29d127d857bcc00b4ee0ee7cdb268d1&p=9c769a47ca9a02ff57efcd3159&newp=8457c54ad48b0be00be296264a53d8304a02c70e3ac3864e1290c408d23f061d4862e5b125251003d3c6776705a44a56e9f6307123454df6cc8a871d81edda6260&user=baidu&fm=sc&query=DFJ+Vinhos%BE%C6%D7%AF&qid=d5be9796000028be&p1=2

4.圣密夕酒庄

来源：http://www.wine-world.com/winery/chateau-ste-michelle-winery

5.哥伦比亚山峰酒庄

看看哪个酒庄的葡萄酒均价最高：

1.巴布莱尔酒庄

苏格兰最古老的酒庄之一，巴布莱尔酒庄是全球唯一专注生产单一年份威士忌（Single Vintage Whisky）的酒庄。

2.拉图城堡酒庄

享有“全球最昂贵的酒庄”声誉，是当之无愧的法国国宝级酒庄。

3.花思蝶酒庄

700年的历史，意大利托斯卡纳最古老的葡萄酒世家之一，曾成为罗马教皇和英王亨利八世的御用佳酿。

4.奥比昂酒庄

法国五大酒庄之一

5.美讯庄园

地处法国波尔多（Bordeaux）格拉夫（Graves）产区的最北端，与奥比昂酒庄（Chateau Haut-Brion）同属于克兰斯帝龙酒业集团（Domaine Clarence Dillon）旗下酒庄，两个酒庄之间仅有一路之隔。美讯酒庄出产的葡萄酒是整个波尔多地区首屈一指的顶级佳酿。

我们看看这五个酒庄的葡萄酒平均价格变化趋势：

前两个的价格遥遥领先~

买不起，买不起！

原文地址：https://www.cnblogs.com/Python1314/p/9460257.html

时间： 2024-12-11 17:14:52

爬虫小项目！适合有基础的！爬取葡萄酒评分！哪个阶段和那种酒呢

爬虫小项目！适合有基础的！爬取葡萄酒评分！哪个阶段和那种酒呢的相关文章

爬虫小程序 - 王者荣耀全皮肤爬取

python爬虫-基础入门-爬取整个网站《3》

前后端分离的爬虫小项目

爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）

python反反爬，爬取猫眼评分

python网页爬虫小项目开发

python基础项目实战:selenium控制浏览器爬取淘宝商品信息

用webmagic实现一个java爬虫小项目

Scrapy分布式爬虫打造搜索引擎——（二） scrapy 爬取伯乐在线