python 爬虫基础之urllib

今天在麦子学院看了教学视频之后，发现收益颇丰，因而做了一下学习笔记（毕竟是第一次写，感觉有点low）。

以下是我照着老师敲的代码：

# coding:utf-8
import urllib

def print_list(list): # 获取的网页源码按行输出
　　for i in list:
　　　　print i
def demo(): # 打开一个网页
　　r = urllib.urlopen(‘http://www.maiziedu.com/course/645/‘)
　　#print r.read(10) #获取10个字节
　　#print r.readline() #获取一行
　　#for i in range(10): #获取10行
　　　　#print ‘line %d:%s‘%(i+1, r.readline())
　　#print r.read() #获取整个页面
　　#print r.getcode() # 获取应答码
　　msg = r.info()
　　#print_list(msg.headers) #打印出头信息
　　#print_list(msg.items()) # 解析的头信息按元组输出
　　#print msg.getheader(‘Content-type‘)
　　#print_list(dir(msg)) #查看对象msg有几种方法

def progress(blk,blk_size,total_size): # 定义下载进度
　　print ‘%d/%d - %.02f%%‘ %(blk*blk_size,total_size,(float)(blk*blk_size)*100/total_size)

def retrieve(): #下载整个网页
　　fname,msg = urllib.urlretrieve(‘https://www.douban.com/‘,‘index_1.html‘,reporthook=progress)
　　print fname #打印文件名
　　print_list(msg.items())　　

if __name__ == ‘__main__‘:
　　retrieve()

在运行过程中，发现下载的结果不是100%，这是怎么回事？原来total_size中不包括头文件。

以下是教学视频的课件链接： http://www.maiziedu.com/uploads/course/2016/09/Python__kejian.pdf

时间： 2024-12-17 18:34:36

python 爬虫基础之urllib的相关文章

python爬虫-基础入门-爬取整个网站《3》

python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python2.x 使用类库: >> urllib 库 >> urllib2 库 python3.x 使用的类库: >> urllib 库变化: -> 在python2.x中使用import urllib2 ----- 对应的,在python3.x 中会使用import url

Python爬虫基础之requests

一.随时随地爬取一个网页下来怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等.我们之前用的是Python标准基础库Urllib实现的, 现在我们使用Python的Requests HTTP库写个脚本开始爬取网页.Requests的口号很响亮“让HTTP服务人类“,够霸气. 二.Python Requests库的基本使用 1.GET和POST请求方式 GET请求 1 import re

python爬虫实例（urllib&BeautifulSoup）

python 2.7.6 urllib:发送报文并得到response BeautifulSoup:解析报文的body(html) #encoding=UTF-8 from bs4 import BeautifulSoup from urllib import urlopen import urllib list_no_results=[]#没查到的银行卡的list list_yes_results=[]#已查到的银行卡的list #解析报文,以字典存储 def parseData(htmls,

python爬虫基础02-urllib库

Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib. 官方文档链接为:https://docs.python.org/3/library/urllib.html 而urllib3则是增加了连接池等功能,两者互相都有补充的部分. urllib 它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,基本上涵盖了基础的网络请

爬虫基础之urllib库

categories: 爬虫 tags: urlopen urlretrieve urlencode parse_qs urlparse urlsplit urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据 urlopen函数在Python3的urllib库中,所有和网络请求相关的方法,都被集到 urllib.request 模块下面了,先来看下urlopen的基本使用 from urllib im

Python 爬虫基础

下面是一个 Python 爬虫最简单的例子,使用网络库 urllib2 和正则表达式库 re,模拟浏览器的 User-Agent. #!/usr/bin/env python # -*- coding: utf-8 -*- #引入基础网络库 import urllib2 #引入正则表达式模块 import re #模拟User-Agent headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWe

Python爬虫入门之Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般是首先请求HTML文件,然后加载JS,CSS 等等,经过多次

python爬虫：使用urllib.request和BeautifulSoup抓取新浪新闻标题、链接和主要内容

案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url) web_data.encoding = 'utf-8' soup = BeautifulSoup(web_data.text,'

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的

猜你喜欢

PHP_基础

目录数组函数类和对象字符串操作会话控制时间和日期异常处理一.数组 1.索引数组 header("Content-Type: text/html; charset=utf-8& ...

每天一个linux命令13之curl发送http请求

一.get请求 curl "http://www.baidu.com" 如果这里的URL指向的是一个文件或者一幅图都可以直接下载到本地 curl -i "http:// ...

HBase 3、HBase练习题-学生课程表维护与查询

1.建立学生和课程表要求:学生可以选择多个课程,每个课程可以被多个学生选择. 查询某个学生所选的所有课程列表查询某个课程,的学生列表学生可以修改所选的课程方案:学生与课程之间是多对多关系,那可 ...

python之启动一个子进程并等待其结束

#_*_coding:utf-8_*_ from multiprocessing import Process import os def aaa(name): print "此刻运 ...

C#（9）——API调用

作为初学者来说,在C#中使用API确是一件令人头疼的问题. 在使用API之前必须知道如何在C#中使用结构.类型转换.安全/不安全代码,可控/不可控代码等许多知识. 一切从简单开始,就从实现一个简单的 ...

（数论）最大公约数和最小公倍数问题

题目描述 Description 输入二个正整数x0,y0(2<=x0<100000,2<=y0<=1000000),求出满足下列条件的P,Q的个数条件: 1.P,Q是正整 ...

给想上MIT的牛学生说几句

[来信] 老师您好! 非常冒昧的来打搅您,仅仅是在学习上实在有些困惑才来向您求教一番. 我是计算机科学与技术的大一学生,我非常喜欢我自己的专业,可是学校里讲的东西太慢,太浅,所以我一般都是自学,我在自 ...

PHP学习笔记二十六【类的重载】

<?php //重载: //函数名一样,通过函数的参数个数或者是参数类型不同,达到调用同一个函数名 Class A{ // public function test1(){ // echo &q ...

泛型技术

泛型技术的介绍这个技术是JDK5中提供的. 针对集合这类容器而言,它中可以存放任意的对象,当任何的对象存放到集合中之后,都被提升成Object类型,当我们从集合中遍历出每个对象的时候,拿到的都是Ob ...

ffmpeg学习笔记

对于每一个刚開始学习的人,刚開始接触ffmpeg时,想必会有三个问题最为关心,即ffmpeg是什么?能干什么?怎么開始学习?本人前段时间開始接触ffmpeg,在刚開始学习过程中.这三个问题尤其最后一个 ...

spring security2配置文件学习小结

1.applicationContext-security的配置使用命名空间,主要分为3个部分: a.注册过滤器链,配置表单登陆,注销等 b. 注册自定义的安全认证管理器 c. 注册自定义的授权过滤 ...

空间谱专题00：综述

作者:桂. 时间:2017-08-21 06:45:55 链接:http://www.cnblogs.com/xingshansi/p/7402353.html 前言打算梳理一下空间谱的算法,开设 ...

什么是项目群管理

MSP将项目群管理定义为执行协调组织.指导和实施一组项目以及转型活动(如项目群)的行动,以实现成果,还有对重要业务战略的收益实现. 项目群管理对应的三重要的组织要素: n 公司战略 n 应对变革的 ...

HDU 5016 Mart Master II (树上点分治)

题目地址:HDU 5016 先两遍DFS预处理出每个点距最近的基站的距离与基站的编号. 然后找重心,求出每个点距重心的距离,然后根据dis[x]+dis[y] < d[y],用二分找出当前子树中 ...

C控制语句--分支和跳转

/*C控制语句--分支和跳转*/ /*关键字 if else switch continue break case default goto 运算符:&&(且) ||(或) ?:(三元 ...

C# 使用NLog记录日志

NLog是一个记录日志组件,和log4net一样被广泛使用,它可以将日志保存到文本文件.CSV.控制台.VS调试窗口.数据库等.最近刚用到这个组件,觉得不错,水一篇. 下载通过Nuget安装NLog ...

第三只眼如何卸载

方法一:管理员的控制机上有卸载功能. 方法二:把文件所在目录下的所有exe文件重命名,然后重启.就可以不被控制.

Too many classes in --main-dex-list

Android 打包开启multiDexEnabled还是爆Too many classes in--main-dex-list 收藏 OSC名字纠查会主席发表于 4个月前阅读 190 收藏 2 ...

Sharepoint 2013 出现The tool was unable to install Application Server Role, Web Server (IIS) Role

在Windows Server 2012 R2环境下运行Sharepoint 2013前置运行软件发现会出现The tool was unable to install Application Ser ...

深入理解MongoDB（一）Linux下配置MongoDB全攻略

一 MongoDB简介 MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种.它在许多场景下可用于替代传统的关系型数据库或键/值存储方式,Mongo使用C++ ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.