python抓取百度彩票的双色球数据

　　最近在学习《机器学习实战》这本书，在学习的过程中不免要自己去实践，写些练习。这写练习的第一步就需要收集数据，所以为了写好自己的练习程序，我得先学会收集一些网络数据。了解到用python抓取网页数据的一些方法后，我就根据别人的demo，自己实践了一下，学着从百度彩票网站上抓取双色球的历史数据。以下我就介绍一下自己的小程序。

　　大致思路如下

　　　　　　找到相关url和其参数

　　　　　　找出页面上你要抓取的数据的位置，也就是说这个数据在那些标签下

　　　　　　将每页中学要的数据取下来按一定格式存放在自己本地

　　　需要的环境：

　　　　　　python

　　　　　　网页解析的库beautifulsoup

　　　具体代码如下：

 1 # -*- coding: utf-8 -*-
 2
 3 #######################################
 4 # 获取百度彩票的双色球历史数据
 5 #######################################
 6 import urllib2
 7 from bs4 import BeautifulSoup
 8
 9 # 创建/打开一个文件放数据
10 def  fetchLottery():
11      f = open("caipiao.txt", "a")
12      for i in range(2,15):
13         print("正在获取"+"{:0>2d}".format(i)+"年数据")
14         url = "http://baidu.lecai.com/lottery/draw/list/50?d=20"+"{:0>2d}".format(i)+"-01-01"
15         page = urllib2.urlopen(url)                                 # 打开目标url
16         soup = BeautifulSoup(page)                                  # 格式化标签
17 对象
18         for curTr in  soup.select("#draw_list tbody tr"):
19             date = curTr.select(".td1")[0].string   #开奖日期
20             ballStr = "" #彩票号码以逗号分割
21             for ball in curTr.select(".td3 .result span"):
22                 ballStr += ","
23                 ballStr += ball.contents[0].string
24             f.write(date + "\t" + ballStr[1:] + "\n")
25      print "数据抓取完成"
26      f.close()
27
28 fetchLottery()

时间： 2024-12-06 04:30:57

python抓取百度彩票的双色球数据的相关文章

用PHP抓取百度贴吧邮箱数据

注:本程序可能非常适合那些做百度贴吧营销的朋友. 去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发. 对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些回复的邮箱,然后再粘贴发送邮件,不是被折磨死就是被累死.无聊至极写了一个抓取百度贴吧邮箱数据的程序,需要的拿走. 程序实现了一键抓取帖子全部邮箱和分页抓取邮箱两个功能,界面懒得做了,效果如下: 老规矩,直接贴源码 <?php $url2=""; $page="";

使用python抓取百度搜索、百度新闻搜索的关键词个数

由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过python,只是很久之前用过它,感觉用起来还比较方便,于是这回又把它拾起来使用了.当然这也是考虑到手上有python机器学习的实战书籍,所以估计一段时间后还会再用的缘故. 思路:首先使用python的库函数把网页的内容爬下来,然后使用正则表达式去匹配想要的字符串,最后进行字符串处理就能得到想要的东西了.

Python抓取百度音乐。

今天挑战下百度音乐抓取,先用Chrome分析下请求的链接. 最关键的就是这个链接 http://play.baidu.com/data/music/songlink 请求这个带上songid就能返回给你音乐的json,那么怎么来获取songid呢? 点开 http://music.baidu.com/tag,找个标签进去.然后查看页面源码.发现有以下片段. 在每首歌曲的li元素的data-songitem里面恰巧包含我们需要的sid.ok,目标明确了,首先请求百度音乐的音乐标签页,然后获得sid

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都

一篇文章教会你用Python抓取抖音app热点数据

今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一款收费的抓包修改工具,易上手,数据请求容易控制,修改简单,抓取数据的开始暂停方便等优势,网上也有汉化版,下载地址为http://www.zdfans.com/html/42074.html,一路默认安装就ok了. 安装完成后要设置代理,依次点击代理——代理设置. 然后在手机端设置代理,如下图所示:

一篇文章教会你用Python抓取抖音app热点数据！

python抓取NBA现役球员基本信息数据并进行分析

链接:http://china.nba.com/playerindex/ 所需获取JSON数据页面链接:http://china.nba.com/static/data/league/playerlist.json 数据来源:NBA中国官网库: requests 用于解析页面文本数据 pandas 用于处理数据时间: 2017/2/17 (因为为现役球员,故需注明时间节点) 开工: 得到了数据,这下就好办了先上简单粗暴够用的代码 import requests 2 import pan

微信好友大揭秘，使用Python抓取朋友圈数据，通过人脸识别全面分析好友，一起看透你的“朋友圈”

微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友的动态,而朋友圈中或虚或实的状态更新,似乎都在证明自己的"有趣",寻找那份或有或无的存在感. 有人选择在朋友圈记录生活的点滴,有人选择在朋友圈展示自己的观点.有时我们想去展示自己,有时又想去窥探着别人的生活,而有时又不想别人过多的了解自己的生活,或是屏蔽对方,或是不给对方看朋友圈,又或是不

运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中

原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im