爬虫小项目!适合有基础的!爬取葡萄酒评分!哪个阶段和那种酒呢

葡萄酒,可能对于小编来讲不算陌生,但是也算陌生!毕竟这种酒还是离不开聚会啥的!葡萄酒的等级也是不一样的!那种阶段的人适合喝那种阶段的酒,这个是有讲究的!所以今天我们来走进葡萄酒的市场吧!

接下来是爬取的数据是这样的!

下载下来之后

内容是这样的

进群:548377875   即可获取数十套PDF哦!

一共有150929条记录

数据集的描述是这样的:

在观看Somm(侍酒师纪录片)之后,数据及提供者想知道如何创建一个预测模型,通过像侍酒师那样的盲品来鉴别葡萄酒。 第一步是收集一些数据来训练一个模型。 他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。 该模型虽然不能品尝葡萄酒,但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。

数据探索

我们使用pandas读取这个文件:

我们查看一下前五行数据:

删除掉本次分析用不到的字段后再次看看情况:

看一下每个字段的类型:

发现评分和价格是数值型的,我们计算时候就不用转换类型了~

我们看一下各字段的数据缺失情况:

本想把有缺失值的记录去掉,去掉后发现只有US的葡萄酒信息,所以没去除存在缺失值的记录

葡萄酒的评分情况

我们通过绘制直方图查看评分分布情况:

发现基本符合高斯分布情况,评分大多集中在85~90分

通过筛选发现确实是有特别昂贵的葡萄酒(这里暂且不管这个价格数据是采集异常还是真的这么贵)

为了可视化到主要的部分,我们选中大部分的价格重新做可视化

这样就可以看到,大部分的价格是在0-100(好像数据集提供者没告诉我价格的单位)

为了买到满意的葡萄酒,我们看看葡萄酒的性价比

简单定义为 性价比 = 评分/价格

结果发现计算出的价格低的明显性价比高

我们看看总体上葡萄酒价格和评分的关系:

发现评分相同的葡萄酒,价格还是差异挺大,特别是评分较高的葡萄酒价格的差异

从图中也可以看出,有几个离群值,他们大多价格很高!

葡萄酒基本来自哪些国家

我们看到,生产葡萄酒的五个大国是吗,美国、意大利、发过、西班牙、智利共和国。

为了更直观凸显他们的比例,我们绘制饼图:

发现美国真是占据了葡萄酒的半壁江山啊

应该是这个数据收集者没收集到中国的数据,我们也是葡萄酒大国之一啊!

看看这些国家在全球的分布(点的大小代表葡萄酒品种多):

除去美国最多,我们看看其次的几个:

(以上两个图是用Tableau画的)

酿造葡萄酒的葡萄品种

我这个不懂酒的程序猿马上查了一下前三的葡萄!

为了看一下这些葡萄使用的比重,做个饼图:

发现前三种占据了1/4

后面还有使用较少的名称堆叠在了一起

酒庄信息

我们接下来看看酒庄信息:

前五的葡萄酒品种最多

分别是:

1.威廉斯莱酒庄

来源:

http://baijiahao.baidu.com/s?id=1559415099145034&wfr=spider&for=pc

2.特斯坦罗萨酒厂

3.DFJ Vinhos

来源:http://cache.baiducontent.com/c?m=9d78d513d99515f74fede53a564a8d3b584381132ba7a7020ed0843e967328355321a3e52878564291d27d141cb20c19afe736056f5e7bebdd9bc9118efec97478c93034074ddb1e0f8245b29d127d857bcc00b4ee0ee7cdb268d1&p=9c769a47ca9a02ff57efcd3159&newp=8457c54ad48b0be00be296264a53d8304a02c70e3ac3864e1290c408d23f061d4862e5b125251003d3c6776705a44a56e9f6307123454df6cc8a871d81edda6260&user=baidu&fm=sc&query=DFJ+Vinhos%BE%C6%D7%AF&qid=d5be9796000028be&p1=2

4.圣密夕酒庄

来源:http://www.wine-world.com/winery/chateau-ste-michelle-winery

5.哥伦比亚山峰酒庄

看看哪个酒庄的葡萄酒均价最高:

1.巴布莱尔酒庄

苏格兰最古老的酒庄之一,巴布莱尔酒庄是全球唯一专注生产单一年份威士忌(Single Vintage Whisky)的酒庄。

2.拉图城堡酒庄

享有“全球最昂贵的酒庄”声誉,是当之无愧的法国国宝级酒庄。

3.花思蝶酒庄

700年的历史,意大利托斯卡纳最古老的葡萄酒世家之一,曾成为罗马教皇和英王亨利八世的御用佳酿。

4.奥比昂酒庄

法国五大酒庄之一

5.美讯庄园

地处法国波尔多(Bordeaux)格拉夫(Graves)产区的最北端,与奥比昂酒庄(Chateau Haut-Brion)同属于克兰斯帝龙酒业集团(Domaine Clarence Dillon)旗下酒庄,两个酒庄之间仅有一路之隔。美讯酒庄出产的葡萄酒是整个波尔多地区首屈一指的顶级佳酿。

我们看看这五个酒庄的葡萄酒平均价格变化趋势:

前两个的价格遥遥领先~

买不起,买不起!

原文地址:https://www.cnblogs.com/Python1314/p/9460257.html

时间: 2024-10-07 10:58:20

爬虫小项目!适合有基础的!爬取葡萄酒评分!哪个阶段和那种酒呢的相关文章

爬虫小程序 - 王者荣耀全皮肤爬取

爬虫小程序 - 王者荣耀全皮肤爬取 代码如下所示(可直接复制使用): import requests import re import os ''' ps: 出现 <Response [405]> 多运行几次就好了 ''' def Downloed_ksin(ename, **kwargs): # 英雄详情页 url = 'https://pvp.qq.com/web201605/herodetail/' + ename + '.shtml' html = session.get(url=ur

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库 变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

前后端分离的爬虫小项目

前后端分离的爬虫小项目-----EncycProject EncycProject项目使用现在流行的前后端分离技术:此项目创作目的是实践.利用此项目快速搭建环境和快速入门.该项目的主线是建立宠物社区网站.目前该项目完成第一个模块:宠物百科:剩余模块陆续开发中.(此项目可以变更,第一模块耦合度低) 项目地址 项目GitHub地址 1 项目效果 1.1 效果图: 爬虫数据数据库数据前端 待续 2 项目结构图 3.1 框架整合 3.1.1 pom.xml <?xml version="1.0&q

爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二)

先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码 运行 <!DOCTYPE html><html><head><meta http-equiv="X-UA-Compatible" content="IE=Edge" /><meta http-equiv="Content-Type" content="text/html; c

python反反爬,爬取猫眼评分

python反反爬,爬取猫眼评分.解决网站爬取时,内容类似:$#x12E0;样式,且每次字体文件变化.下载FontCreator . 用FontCreator打开base.woff.查看对应字体关系 初始化时将对应关系写入字典中. 1 #!/usr/bin/env python 2 # coding:utf-8 3 # __author__ = "南楼" 4 5 6 import requests 7 import re 8 import os 9 10 from fontTools.

python网页爬虫小项目开发

这是我最近接的一个小项目,花了是整整四天多时间,最终老师也很好,给了两千块的报酬. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类,接着分析出题目的类型 类别 来源 出题时间等等信息,最终将这些信息转化到excel表格中,excel中的数据有着统一的格式.其中有些信息有关医学,故而需要自行了解. 由于仅仅是是为了完成最终的任务,故而没有使用什么爬虫框架之类的,也没有使用什么数据库来保存数据,尽量

python基础项目实战:selenium控制浏览器爬取淘宝商品信息

今天为大家介绍一个Python利用selenium打开浏览器的方式来爬取淘宝商品的信息,下面就来看看,关于selenium的知识点,是如何做到控制浏览器获取网站的信息 导入第三方库 关键词搜索 抓取索引页 大家在学python的时候肯定会遇到很多难题,以及对于新技术的追求,这里推荐一下我们的Python学习扣qun:784758214,这里是python学习者聚集地!!同时,自己是一名高级python开发工程师,从基础的python脚本到web开发.爬虫.django.数据挖掘等,零基础到项目实

用webmagic实现一个java爬虫小项目

一.环境       项目:maven项目 数据库:mysql 二.项目介绍 我们要爬去的页面是https://shimo.im/doc/iKYXMBsZ5x0kui8P 假设我们需要进入这个页面,爬取页面里面的所有电影百度云链接,并保存在mysql数据库里. 三.pom.xml配置 首先我们需要新建一个maven项目,并在pom.xml配置如下jar包. <?xml version="1.0" encoding="UTF-8"?> <projec

Scrapy分布式爬虫打造搜索引擎——(二) scrapy 爬取伯乐在线

1.开发环境准备 1.爬取策略 目标:爬取“伯乐在线”的所有文章 策略选择:由于“伯乐在线”提供了全部文章的索引页 ,所有不需要考虑url的去重方法,直接在索引页开始,一篇文章一篇文章地进行爬取,一直进行到最后一页即可. 索引页地址:http://blog.jobbole.com/all-posts/ 2. 搭建python3虚拟环境 打开cmd,进入命令行,输入workon,查看当前存在的虚拟环境:  workon 为爬虫项目,新建python3虚拟环境: mkvirtualenv -p py