爬取彩票中奖信息

（1） http://www.zhcw.com/ssq/kaijiangshuju/index.shtml?type=0，打开此网址，并通过浏览器中“检查”选项发现此网页数据来源规律；

（2）发现他的这些信息都存在标签<tr>中

（3）代码展示：

爬取 1-5 页的中所有中奖的<开奖时间>、<期号>、<中奖号码>、<销售额>、 <一等奖>、 <二等奖>信息存储至 CSV 文件。

 #将信息爬取出来并存在列表中
form = []
for i in range(1,5):
    url1 = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_%s.html" %(i)
    html1 = requests.get(url1).text
    soup = BeautifulSoup(html1, ‘html.parser‘)
    tag = soup.find_all(‘tr‘)
    # print(tag)
    for a in tag[2:len(tag) - 1]:
        temp = []
        for b in a.contents[0:12]:
            if (b != ‘\n‘):
                temp += [b.text.strip().replace(‘\r\n‘, ‘‘).replace(‘ ‘, ‘‘).replace(‘\n‘, ‘ ‘)]
        form.append(temp)

存到csv中：

with open(‘双色球中奖信息.csv‘,‘w‘,newline=‘‘,encoding=‘utf-8‘) as f:
    writer = csv.writer(f)
    writer.writerow([‘开奖日期‘, ‘期号‘, ‘中奖号码‘, ‘销售额(元)‘, ‘一等奖‘, ‘二等奖‘])
    for a in form:
        print(a)
        writer.writerow(a)

运行结果：

总结：

推荐使用lxml解析库，必要时使用html.parser
标签选择筛选功能弱但是速度快
建议使用find()、find_all() 查询匹配单个结果或者多个结果
如果对CSS选择器熟悉建议使用select()
记住常用的获取属性和文本值的方法

原文地址：https://www.cnblogs.com/wt714/p/12003239.html

时间： 2024-10-02 01:45:21

爬取彩票中奖信息的相关文章

[Python学习] 简单爬取CSDN下载资源信息

这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL.资源名称.下载次数.分数等信息:写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息. 源代码 # coding=utf-8 import urllib import time import re import os #****************************************

Python爬虫入门 | 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~好啦,正式开始我们的第二节课<爬取豆瓣电影信息>吧!啦啦哩啦啦,都看黑板~1. 爬虫原理1.1 爬虫基本原理听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从"爬虫原理"说起.爬虫又称为网页蜘蛛,是一种程序或脚本.但重点在于:它能够按照一定的规则,自动

python利用selenium+requests+beautifulsoup爬取12306火车票信息

在高速发展的时代.乘车出远门是必不可少的,有些查询信息是要收费的.这里打造免费获取火车票信息想要爬取12306火车票信息,访问12306官方网站,输入出发地,目的地 ,时间之后点击确定,这是我们打开谷歌浏览器开发者模式找到 https://kyfw.12306.cn/otn/resources/js/framework/station_name.js 这里包含了所有城市的信息和所有城市的缩写字母.想要获取火车票信息 https://kyfw.12306.cn/otn/left

python爬虫实践——爬取京东商品信息

1 ''' 2 爬取京东商品信息: 3 请求url: 4 https://www.jd.com/ 5 提取商品信息: 6 1.商品详情页 7 2.商品名称 8 3.商品价格 9 4.评价人数 10 5.商品商家 11 ''' 12 from selenium import webdriver 13 from selenium.webdriver.common.keys import Keys 14 import time 15 16 17 def get_good(driver): 18 try

足球竞猜网页的信息进行爬取并且对信息分析

说明一.项目介绍对于足球竞猜网页的信息进行爬取并且对信息分析二.部分代码展示 import requests from lxml.html import etree headers = {'Referer': 'http://www.okooo.com/jingcai/', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.10

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文

团队-张文然-需求分析-python爬虫分类爬取豆瓣电影信息

首先要明白爬网页实际上就是:找到包含我们需要的信息的网址(URL)列表通过 HTTP 协议把页面下载回来从页面的 HTML 中解析出需要的信息找到更多这个的 URL,回到 2 继续其次还要明白:一个好的列表应该:包含足够多的电影的 URL通过翻页,可以遍历到所有的电影一个按照更新时间排序的列表,可以更快抓到最新更新的电影最后模拟过程知道豆瓣网站不能一次性爬取所有信息,只能分类爬取使用工具pyspider分析完成实现代码,测试模拟运行,按照时间列表爬取每类最新电影资讯代码分解,便于加入团队后组员

Python爬取彩票双色球并存到把数据excel表格里

环境:python3 目的:爬取15年的双色球开奖号以及期数和开奖日期: 上代码 #!/usr/bin/env python3 #-*-coding:utf-8-*- # @Author : 杜文涛 # @Time : 2018/4/19 16:01 # @File : cpssq.py #彩票双色球数据 import requests import re import xlwt import time def get_all_page(): global all_page

python爬取北京租房信息

租房助手发现官网的筛选方式不能满足自己的需求,所以爬取相关网站制作出现在的东西来效果预览-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blank">在线预览</a> ###下面进行详细分析一.首先爬取起始地和终点地的路线及沿途地铁站名称 1.爬取8684.cn的地铁查询: pattern = 'http://bjdt.8684.cn/so.p