python学习之——爬取网页信息

爬取网页信息

说明：正则表达式有待学习，之后完善此功能

#encoding=utf-8

import urllib
import re
import os

#获取网络数据到指定文件
def getHtml(url,fname):
    #fname = ‘C:\\Users\cuiliting\\Desktop\\weather_forecast.txt‘
    data =[]
    page = urllib.urlopen(url)
    html = page.read()
    data.append(html)
    fobj = open(fname,‘w‘)
    fobj.writelines(‘%s‘ %x for x in data)
    fobj.close()
    page.close()  

#从文件获取得到所需数据
def getWeather(fname,weath_keyword):
    fobj = open(fname,‘r‘)
    for eachline in fobj:
        if weath_keyword in eachline:
            print eachline,

    fobj.close()  

if __name__ == ‘__main__‘:
    #url_input = raw_input("please enter url:")
    #fname_input = raw_input("please enter fname:")
    #weath_keyword_input = ‘raw_input("please enter keywords:")‘
    url_input = ‘http://www.weather.com.cn/weather/101010100.shtml‘
    fname_input = ‘C:\\Users\\Desktop\\weather_forecast.txt‘
    weath_keyword_input = ‘<h1>10日（明天）</h1>‘
    getHtml(url_input,fname_input)
    getWeather(fname_input,weath_keyword_input)

时间： 2024-12-19 09:56:27

python学习之——爬取网页信息的相关文章

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读评论(4) 收藏举报分类: Python爬虫(23) Python基础知识(17) 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规模最大和增长最快的开放式的在线百科系统,其典型

常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递参数 4.爬取网页中所有URL链接 5.爬取网页标题title两种方法 6.定位table位置并爬取属性-属性值 7.过滤<span></span>等标签 8.获取<script></script>等标签内容 1). 获取&

python学习笔记-抓取网页图片脚本

初学者一枚,代码都是模仿网上的.亲测可用~ 运行脚本的前提是本机安装了httplib2模块 #!/usr/bin/python import os import re import string import urllib #author:reed #date:2014-05-14 def GetWebPictures(): url=raw_input('please input the website you want to download:') imgcontent=urllib.urlo

第一周、学会爬取网页信息总结

目标:爬取网页,获得自己需要的信息步骤: 1. 导入需要的模块2. 利用request向目标网站获得网页信息3. 用BeautifulSoup解析所获得的网页 3. 获得需要的信息所在的标签内容 4. 精简标签获得关键信息5. 获得关键信息之后,再处理(比如比大小) 1.导入需要的模块 BeautifulSoup模块: BeautifulSoup:是一个可以从HTML和XML中读取数据的库.库也叫模块,在笨办法学Python中叫做特征,是其他程序员开发好的一些代码,可以拿来导入(import)

生成器的应用，爬取网页信息

#需求:生成器的应用 #然后每次g.send(url),打印页面内容,利用g可以无限send 1 from urllib.request import urlopen #导入爬虫模块 2 def get(): 3 while True: 4 url = yield #将函数改成协程函数 5 print(urlopen(url).read()) #打印爬取网页的结果 6 7 g = get() #将函数改成生成器 8 next(g) #初始化生成器 9 g.send("http://www.bai

[Python学习] 简单爬取CSDN下载资源信息

这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL.资源名称.下载次数.分数等信息:写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息. 源代码 # coding=utf-8 import urllib import time import re import os #****************************************

python 嵌套爬取网页信息

当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取. 比如要爬取起点中文网排行榜的小说简介,找到榜单网址:https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1 将榜单上的小说链接爬出来,在从小说链接里面爬小说简介 import pymysql import requests from hashlib import