python抓取网页信息

环境:python 2.7

用自带的urllib,urllib2包可以实现大部分抓取功能。代码十分简短。

关键在于正则表达式的建立和处理。

 1 #coding=utf-8
 2 ‘‘‘
 3 Created on 2014-9-25
 4
 5 @author: Administrator
 6 ‘‘‘
 7 import urllib
 8 import urllib2
 9 import re
10
11 #url = ‘http://www.taobao.com/‘
12 url = ‘http://www.gov.cn/‘
13
14 req = urllib2.Request(url)
15 html = urllib2.urlopen(req).read()
16 #print html
17
18 ss = re.findall(‘blank">(.*?)\<\/‘,html)
19 for i in ss:
20     print i
时间: 2024-12-15 11:37:11

python抓取网页信息的相关文章

Python抓取网页&amp;批量下载文件方法初探(正则表达式+BeautifulSoup) (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页 基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req 

python抓取网页

一 不需要登录的 import urllib2 content = urllib2.urlopen('http://XXXX').read() 二 使用代理 import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'}) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_o

Python爬取网页信息

Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 # Author: xixihuang 5 # Date : 2016/08/28 10:12 AM 6 # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. 7 8 import os 9 import uuid 10 import urllib2 11 import cookielib 12 '''获取

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都

抓取网页信息

winform的form.cs 1 using HtmlAgilityPack; 2 using System; 3 using System.Windows.Forms; 4 using Hqew.DMSFrame.Entity.ExpressionClips; 5 using System.Collections.Generic; 6 using Hqew.DMSFrame.Exception; 7 using System.Threading; 8 9 namespace PageGath

【转载】python抓取网页时候,判断网页编码格式

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取.但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等.我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现. 使用chardet模块 1 #如果你的python没有安装c

python抓取网页图片的小案例

1.分析 ,要抓取的页面的信息以及对应的源码信息 blog.sina.com.cn/s/blog 93dc666c0101b1bj.html 2.代码模块: 导入正则表达的模块 导入url相关的模块 利用page.read()获取页面的信息,再将页面当做字符串,传入到getImg方法内,利用正则表达式,匹配你要的字符串信息,然后,在利用urllib包的urlretrieve()下载,你要的图片. 这个是urllib模块内的方法的详解:http://www.jb51.net/article/426

动态抓取网页信息

前几天在做数据库实验时,总是手动的向数据库中添加少量的固定数据,于是就想如何向数据库中导入大量的动态的数据?在网上了解了网络爬虫,它可以帮助我们完成这项工作,关于网络爬虫的原理和基础知识,网上有大量的相关介绍,本人不想在累述,个人觉得下面的文章写得非常的好(网络爬虫基本原理一.网络爬虫基本原理二). 本博客就以采集博客园首页的新闻部分为例吧.本例为了直观简单就采用MVC,将采集到的数据显示到页面中,(其实有好多小型网站就是采用抓取技术抓取网上各自需要的信息,再做相应的应用).另外在实际的抓取过程