python抓取NBA现役球员基本信息数据并进行分析

链接：http://china.nba.com/playerindex/

所需获取JSON数据页面链接：http://china.nba.com/static/data/league/playerlist.json

数据来源：NBA中国官网

库：

requests 用于解析页面文本数据

pandas 用于处理数据

时间：

2017/2/17 （因为为现役球员，故需注明时间节点）

开工：

得到了数据，这下就好办了

先上简单粗暴够用的代码

 import requests
 2 import pandas as pd
 3 user_agent = ‘User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)‘
 4 headers = {‘User-Agent‘:user_agent}
 5 url=‘http://china.nba.com/static/data/league/playerlist.json‘
 6 #解析网页
 7 r=requests.get(url,headers=headers).json()
 8 num=int(len(r[‘payload‘][‘players‘]))-1 #得到列表r[‘payload‘][‘players‘]的长度
 9 p1_cols=[] #用来存放p1数组的列
10 p2_cols=[] #用来存放p2数组的列
11 #遍历其中一个[‘playerProfile‘]，[‘teamProfile‘] 得到各自列名，添加到p1_cols和p2_cols列表中
12 for x in r[‘payload‘][‘players‘][0][‘playerProfile‘]:
13     p1_cols.append(x)
14 for y in r[‘payload‘][‘players‘][0][‘teamProfile‘]:
15     p2_cols.append(y)
16 p1=pd.DataFrame(columns=p1_cols) #初始化一个DataFrame p1 用来存放playerProfile下的数据
17 p2=pd.DataFrame(columns=p2_cols) #初始化一个DataFrame p1 用来存放playerProfile下的数据
18  #遍历一次得到一个球员的信息，分别添加到DataFrame数组中
19 for z in range(num):
20     player=pd.DataFrame([r[‘payload‘][‘players‘][z][‘playerProfile‘]])
21     team=pd.DataFrame([r[‘payload‘][‘players‘][z][‘teamProfile‘]])
22     p1=p1.append(player,ignore_index=True)
23     p2=p2.append(team,ignore_index=True)
24 p3=pd.merge(p1,p2,left_index=True,right_index=True) #数据合并
25 p3.to_csv(‘f://NBA//nba_player.csv‘,index=False)

只能说简单粗暴，25行代码搞定，恩，不过数据已经拿到手。

接下来查看一下

数据量不大，也可以用EXCEL来‘偷窥‘

拿到数据，总得稍微把玩一下，才对得起这堆数据，不然和撩到了步行街标准9分妹子就分手有什么区别呢？

了解下基本的数据情况

截止全明星赛前有449名现役球员

那么各球队球员数量具体是多少呢？

老詹的骑士还差个控位，湖人在为明年做准备

很想了解下NBA球员国籍‘country‘的情况

也就是说449名现役大名单球员里，有340名美国佬咯，螺旋稳

其中，

亚洲帅哥2枚，格鲁吉亚的Zaza Pachulia 和以色列的Omri Casspi 撑场

非洲在大帝的领导下，率将领14名出征，NBA官网上28卡国籍是刚果。

欧洲55人；大洋洲8人(澳大利亚7人，新西兰1人)；南美12人；还有4人，暂且未知（NBA数据库未补充）

接下来，看一下现役球员中，每一届球员的情况

98届的 Vince Carter，Paul Pierce，Dirk Nowitzki

99届的Manu Ginobili，Jason Terry，Metta World Peace

00届的Jamal Crawford，Mike Miller

01届的Tyson Chandler，Pau Gasol，Richard Jefferson，Joe Johnson，Tony Parker，Zach Randolph

02届的Matt Barnes，Mike Dunleavy，Udonis Haslem，Nene，Luis Scola

终有一天他们会离去，就像去年夏天的Tim,Bryant 和 Kevin

还是那句话，老兵不死，只是凋零。

03白金一代也只有12人在战斗了，当安东尼顶替乐福进入16/17/全明星赛时，老詹说自己不再是年龄最大的那位了，当时的你又在想啥呢？

这里我们需要再看一项数据，就是NBA现役球员的NBA平均职业生涯年龄是多少呢？

现役球员平均职业年龄为4.76年。

新生代球员配上新时代的体系及打法，NBA也是越来越好看，越来越激烈。每一位成功的球员都是为那个时代而生的。

下面，我们看一个很有意思的数据

现役NBA球员，最受欢迎的号码前5是哪几个号码呢？

只能说，666。原来5号，8号这么受欢迎。

还有，我们平时看NBA,主播评论员都是只说美国人的lastName，所以有时候一个队有几个汤普森或者约翰逊，满脸茫然

朋友，我会告诉你，共有7个约翰逊，统统来自美国。东部4个约翰逊，西部3个约翰逊。

热火VS快船比赛解说可能就是，约翰逊外线传球给约翰逊被杀出来的约翰逊抢断成功，掩耳不及迅雷之势传给快下的约翰逊，轻松扣篮得手。

那球员的位置分布怎么样呢？小球时代，自我感觉整个联盟后场球员会遥遥领先前场球员，一起来看看，果不其然。

今天就聊到这里吧

还有许多有趣的字段，有待开发。无兄弟，不篮球，期待与大伙一起为了我们兴趣，一起讨论交流，

I am a JRS，We are family ,他强任他强。

小白一枚，能力有限，做的不好的地方，尤其是逻辑与思维上的东西，需要大神们看到了多多指教和斧正buddyquan。

小白博客：https://home.cnblogs.com/u/buddyquan/

QQ:1749061919 小白爬虫求带

时间： 2024-08-09 21:59:39

python抓取NBA现役球员基本信息数据并进行分析的相关文章

python抓取百度彩票的双色球数据

最近在学习<机器学习实战>这本书,在学习的过程中不免要自己去实践,写些练习.这写练习的第一步就需要收集数据,所以为了写好自己的练习程序,我得先学会收集一些网络数据.了解到用python抓取网页数据的一些方法后,我就根据别人的demo,自己实践了一下,学着从百度彩票网站上抓取双色球的历史数据.以下我就介绍一下自己的小程序. 大致思路如下找到相关url和其参数找出页面上你要抓取的数据的位置,也就是说这个数据在那些标签下将每页中学要的数据取下来按一定格式存放在自己本地需要的环境: pytho

《一出好戏》讲述人性，使用Python抓取猫眼近10万条评论并分析，一起揭秘“这出好戏”到底如何？

黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的.目前<一出好戏>在猫眼上已经获得近60万个评价,评分为8.2分,票房已破10亿. 作者本人(汤小洋 )今天也走进了电影院,对这部电影做了亲身的观看,看完后的感觉是有些许失落的,本以为是喜剧片,结果发现笑点一般,从搞笑的角度来看,不如<西虹市首富>,影片更多的是反映人类本性的一部电影,不应当做喜剧片来看,影片中展现的人与人之间的关系倒是值得我们去深思.

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都

一篇文章教会你用Python抓取抖音app热点数据

今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一款收费的抓包修改工具,易上手,数据请求容易控制,修改简单,抓取数据的开始暂停方便等优势,网上也有汉化版,下载地址为http://www.zdfans.com/html/42074.html,一路默认安装就ok了. 安装完成后要设置代理,依次点击代理——代理设置. 然后在手机端设置代理,如下图所示:

一篇文章教会你用Python抓取抖音app热点数据！

运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中

原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im

利用Python抓取亚马逊评论列表数据

前段时间,我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来.1000个用户,要一个个的去看再记录下来,而且并不是每个评论用户都会将个人的联系方式留下来.那么问题来了,这样费时费力的工作如果人工去做的话,那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做),然后累的够呛的.本着心疼的原则(程序猿能找到妹子就很不错了,所以得心疼着),就想帮着她做点事. 我本身的工作是做游戏客户端开发的,主要使用的开发语言是lua和c++,并没有接触过网页.网站相

使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）

本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据. 准备工作首先是开始抓取前准备工作,导入需要使用的库文件,这里主要使用的是requests和BeautifulSoup两个.Time库负责设置每次抓取的休息时间.这里并非全部,后续还会在过程中导入新的库. 抓取列表页开始抓取

运用python抓取博客园首页的全部数据，并且定时持续抓取新发布的内容存入mongodb中

原文地址:运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im