python爬取nba今天的信息

最近无聊在写python爬虫，分享一个爬去nba今天信息的python脚本，可能没写的美观，有优化的请大神指点！

?  /test sudo vim nba.py
#!/usr/bin/python
#-*- coding:utf-8 -*-
class url:
        def __init__(self,url):
                self.url = url
        def nba(self):
                import re
                import urllib2
                hearders = "User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"
                url = "%s" %(self.url)
                par = '2018-01-25.*htm\">(.*?)</a></li>'
                opener = urllib2.build_opener()
                opener.addheaders = [hearders]
                urllib2.install_opener(opener)
                html = urllib2.urlopen(url).read().decode("utf-8")
                data = re.findall(par,html)
                print type(data)
                for i in data:
                        print i
u = url('https://news.zhibo8.cc/nba/')
u.nba()

?  /test sudo python nba.py
<type 'list'>
【翻译组】本赛季勇士的“死亡五小”为何统治力大减？
吉米-巴特勒晒与韦德合照：祝大哥生日快乐
‘坏篮框之树’！奥尼尔晒被自己扣碎过的篮框
杜兰特：火箭打的非常强硬 他们的变化不仅仅是CP3
安东尼27分 亚当斯21+10 雷霆大胜湖人迎3连胜
海沃德发推：很喜爱我们球队的斗志
莱昂纳德复出19+8约基奇23+9+7 马刺主场大胜掘金
铂金压哨劈扣为尼克斯续命 两队进入第二个加时
27分20板！字母哥爆发客场双杀奇才
宝刀未老！诺维茨基20分率队迎独行侠“首胜”
乔治缺阵 威少31+8+6甜瓜11+11 雷霆遭篮网逆转
库里当选全明星西部票王！将成为西部队长！
巴特勒赛后：我们需要变得谦逊 很高兴我们输球了
前瞻-开拓者vs步行者：两者相争，勇者胜
恩比德发推：美妙的一天！伟大的胜利+成为全明星
格里芬：利拉德值得入选全明星 而不是仅在讨论范围中
绝命中投！沃尔拿下赛季新高16助攻
前瞻-马刺VS步行者：五连客终遇银发魔鬼

原文地址：http://blog.51cto.com/legehappy/2064963

时间： 2024-10-08 04:17:36

python爬取nba今天的信息的相关文章

利用python爬取贝壳网租房信息

最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了. 1. 利用lxml中的xpath提取信息 xpath是一门在 xml文档中查找信息的语言,xpath可用来在 xml 文档中对元素和属性进行遍历.对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但xpath明显比re具有优势.具有如下优点:(1)可在xml中查找信息 :(2)支持html的查找:(3)通过元素和属性

python 爬取淘宝模特信息

通过本篇博文,介绍一下我对指定信息进行爬取的时候的思路,顺便贴一下代码. 一.首先获取想要爬取的网站的url链接的规则变化可以看出来该网站页面的url结构简单,变化的只是https://mm.taobao.com/json/request_top_list.htm?page= page的值二.对网站页面的DOM树的结构进行分析,方便我们获取我们想要的内容信息, 我写了个简单的网页分析脚本analyze.py:用来输出DOM树,方便我后面做筛选. # -*- coding:utf-8 -*-

Python 爬取外文期刊论文信息（机械仪表工业）

NSTL国家科技图书文献中心 2017 机械仪表工业所有期刊论文信息代码比较随意,不要介意第一步,爬取所有期刊链接 #coding=utf-8 import time from selenium import webdriver from lxml import etree from pymongo import MongoClient client = MongoClient("IP", 27017) db = client["nstl"] co

Python 爬取淘宝商品信息和相应价格

!只用于学习用途! plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) :获得商品价格和view_price字段,并保存在plt中 tlt = re.findall(r'\"raw_title\"\:\".*?\"',html) :获得商品名称和raw_price字段,并保存在tlt中 price = eval(plt[i].split(':')[1]) :使用冒号分隔键

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象.同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习. 总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~ 一. DOM树结构分析豆瓣Top250电影网址:https://movie.douban.com/top2

Python 爬取拉勾网python职位信息

今天的任务是爬取拉勾网的职位信息. 首先,我们进入拉勾网,然后在职位搜索栏搜索Python 的同时,打开控制面板F12,来查看网页构成. 在XHR里,可以清楚的看见Ajax请求,所以需要使用session模块来模拟浏览器的行为来操作. 源代码如下: import requests import json header = { 'Accept': 'application/json, text/javascript, */*; q=0.01', 'Referer': 'https://www.la

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

Python爬虫项目--爬取自如网房源信息

本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 2.获取单页源码 1 # -*- coding: utf-8 -*- 2 import requests 3 import time 4 from requests.exceptions import