python获取网站http://www.weather.com.cn 城市 8-15天天气

参考一个前辈的代码,修改了一个案例开始学习beautifulsoup做爬虫获取天气信息,前辈获取的是7日内天气,

我看旁边还有8-15日就模仿修改了下。其实其他都没有变化,只变换了获取标签的部分。但是我碰到

一个span获取的问题,如我的案例中每日的源代码是这样的。

<li class="t">
<span class="time">周五(19日)</span>
<big class="png30 d301"></big>
<big class="png30 n301"></big>
<span class="wea">雨</span>
<span class="tem"><em>36℃</em>/22℃</span>
<span class="wind">东南风</span>
<span class="wind1">微风</span>
</li>

上门的所有span标签中,日期,天气,风向都可以通过beautifulsoup进行标签匹配获取。唯独温度获取不到,

获取到的值为none,我奇怪了好酒,用span.em能获取到36°,获取不完全,不符合我的要求。最后没办法。

我只能通过获取到这个span这一回内容

<span class="tem"><em>36℃</em>/22℃</span>

然后通过字符串替换替换掉多余的字符。剩余36℃/22℃

得到这个结果。存入变量并写入csv文件。

以下为全部代码,如有不对的地方欢迎指教。

‘‘‘
Created on 2017年5月10日

@author: bekey qq:402151718
‘‘‘

#conding:UTF-8

import requests
import csv
import random
import time
import socket
import http.client
#import urllib.request
from bs4 import BeautifulSoup

def get_content(url , data = None):
    header={
        ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
        ‘Accept-Encoding‘: ‘gzip, deflate, sdch‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘,
        ‘Connection‘: ‘keep-alive‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36‘
    }
    timeout = random.choice(range(80, 180))
    while True:
        try:
            rep = requests.get(url,headers = header,timeout = timeout)
            rep.encoding = ‘utf-8‘
            # req = urllib.request.Request(url, data, header)
            # response = urllib.request.urlopen(req, timeout=timeout)
            # html1 = response.read().decode(‘UTF-8‘, errors=‘ignore‘)
            # response.close()
            break
        # except urllib.request.HTTPError as e:
        #         print( ‘1:‘, e)
        #         time.sleep(random.choice(range(5, 10)))
        #
        # except urllib.request.URLError as e:
        #     print( ‘2:‘, e)
        #     time.sleep(random.choice(range(5, 10)))
        except socket.timeout as e:
            print( ‘3:‘, e)
            time.sleep(random.choice(range(8,15)))

        except socket.error as e:
            print( ‘4:‘, e)
            time.sleep(random.choice(range(20, 60)))

        except http.client.BadStatusLine as e:
            print( ‘5:‘, e)
            time.sleep(random.choice(range(30, 80)))

        except http.client.IncompleteRead as e:
            print( ‘6:‘, e)
            time.sleep(random.choice(range(5, 15)))

    return rep.text
    # return html_text

def get_data(html_text):
        final = []
        bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象
        body = bs.body # 获取body部分
        data = body.find(‘div‘, {‘id‘: ‘15d‘})  # 找到id为7d的div
        ul = data.find(‘ul‘)  # 获取ul部分
        li = ul.find_all(‘li‘)  # 获取所有的li

        for day in li: # 对每个li标签中的内容进行遍历
            temp = []
            #print(day)
            span = day.find_all(‘span‘) #找到所有的span标签
            #print(span)
            date = span[0].string  # 找到日期
            temp.append(date)  # 添加到temp中
            wea1 = span[1].string#获取天气情况
            temp.append(wea1) #加入到list
            tem =str(span[2])
            tem = tem.replace(‘<span class="tem"><em>‘, ‘‘)
            tem = tem.replace(‘</span>‘,‘‘)
            tem = tem.replace(‘</em>‘,‘‘)
            #tem = tem.find(‘span‘).string #获取温度
            temp.append(tem) #温度加入list

            windy = span[3].string
            temp.append(windy)#加入到list
            windy1 = span[4].string
            temp.append(windy1)#加入到list
            final.append(temp)

        return final

def write_data(data, name):
    file_name = name
    with open(file_name, ‘a‘, errors=‘ignore‘, newline=‘‘) as f:
            f_csv = csv.writer(f)
            f_csv.writerows(data)

if __name__ == ‘__main__‘:
    url =‘http://www.weather.com.cn/weather15d/101180101.shtml‘
    html = get_content(url)
    #print(html)
    result = get_data(html)
    #print(result)
    write_data(result, ‘weather7.csv‘)

效果如图:

项目地址:[email protected]:zhangbei59/weather_get.git

时间: 2024-07-31 00:58:05

python获取网站http://www.weather.com.cn 城市 8-15天天气的相关文章

Python网络编程小例子:使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

python 获取网站IP以及服务器

写了一个识别网站的ip以及服务器的代码,比较烂,希望大佬指教 1 import requests 2 import sys 3 import socket 4 5 def get_ip(url): # 获取IP 6 if 'http' in str(url): 7 url = url.split('//')[1] 8 ip = socket.gethostbyname(url) 9 else: 10 ip = socket.gethostbyname(url) 11 return ip 12 1

python获取网站信息

#coding:utf-8 import urllib2 import os import sys reload(sys) sys.setdefaultencoding("utf-8") from bs4 import BeautifulSoup heads = {} heads['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0

ios项目开发(天气预报项目):使用正则获取 weather.com.cn网站信息

[objc] view plaincopyprint?在CODE上查看代码片派生到我的代码片 <pre code_snippet_id="346208" snippet_file_name="blog_20140515_1_2220869" name="code" class="cpp">- (NSString *)hmacsha1:(NSString *)text key:(NSString *)secret {

Python获取个人网站的所有课程下载链接和密码,并保存到Mongodb中

1.获取网站课程的分类地址: ''' 爬取屌丝首页,获取每个分类名称和链接 ''' import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36', } def get_class_data(): list_dat

Python获取当地的天气和任意城市的天气

先从中国天气网得到数据('http://www.weather.com.cn/data/cityinfo/'+城市编码),每个城市都有各自的编码,如何得到用户所在地的城市编码呢?用一个网页就是专门干这个的!http://61.4.185.48:81/g/ 附录:所有城市的编码 101010100=北京 101010200=海淀 101010300=朝阳 101010400=顺义 101010500=怀柔 101010600=通州 101010700=昌平 101010800=延庆 1010109

Python 获取接口数据,解析JSON,写入文件

Python 获取接口数据,解析JSON,写入文件 用于练手的例子,从国家气象局接口上获取JSON数据,将它写入文件中,并解析JSON: 总的来说,在代码量上,python代码量要比java少很多.而且python看起来更直观一些: 以下是代码: import types import urllib2 import json duan ="--------------------------" #在控制台断行区别的 #利用urllib2获取网络数据 def registerUrl():

python 获取省份的天气预报

其实这些东西好像不用这样获取的,中国天气网上直接提供有天气的json数据接口, 不过最近想弄一个一键新闻或者其它例如糗百.微博热点.QQ热点聚合的东西. 先拿天气来练练手 其实这个不用模拟登陆,所以非常简单,上代码: # -*- coding: utf-8 -*- import urllib import re import thread class Wathereather_Spider_Model: def __init__(self): self.ok = False def getHtm

python获取原图GPS位置信息,轻松得到你的活动轨迹

一.图像EXIF信息 介绍 EXIF(Exchangeable image file format,可交换图像文件格式)是专门为数码相机的照片设定的,可以记录数码照片的属性信息和拍摄数据,如拍摄时间.图像分辨率.感光值.GPS坐标等. Exif最初由日本电子工业发展协会在1996年制定,版本为1.0.1998年,升级到2.1,增加了对音频文件的支持.2002年3月,发表了2.2版. Exif可以附加于JPEG.TIFF.RIFF等文件之中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件