python爬虫笔记

 1 import urllib2
 2 response = urllib2.urlopen("http://www.baidu.com")
 3 html = response.read()
 4
 5 #eg2
 6 import urllib2
 7 req = urllib2.Request("http://www.baidu.com")
 8 response = urllib2.urllib2(req)
 9 the_page = response.read()
10
11 #eg3 POST传送数据
12 import urllib
13 import urllib2
14
15 url = "http://www.msdn.com"
16 values={‘name‘:‘Xu‘,
17         ‘location‘:‘YJ‘,
18         ‘language‘:‘Python‘}
19
20 data = urllib.urlencode(values)
21 req = urllib2.Request(url,data) #发送请求,同时传送data表单
22 response = urllib2.urlopen(req) #接收数据
23 the_page = response.read()
24
25 #eg4 GET传送数据
26 #略
27
28 #eg5 加入User-Agent
29 import urllib
30 import urllib2
31
32 url = "http://www.msdn.com"
33 user_agent = ‘Mozilla/4.0(compatible;MSIE 5.5;Windows NT)‘
34 values={‘name‘:‘Xu‘,
35         ‘location‘:‘YJ‘,
36         ‘language‘:‘Python‘}
37
38 headers = {‘User-Agent‘:user_agent}
39 data = urllib.urlencode(values)
40 req = urllib2.Request(url,data,headers) #发送请求,同时传送data表单和User-agent
41 response = urllib2.urlopen(req) #接收数据
42 the_page = response.read()
43
44 #eg6捕获异常
45 try:
46     response = urllib2.urlopen(req) #接收数据
47 except urllib2.URLError,e:
48     print e.reason
49     print e.code    #404 or 500...
50 #way2
51 try:
52     response = urllib2.urlopen(req) #接收数据
53 except urllib2.HTTPError,e:
54     print e.code    #404 or 500...
55 except urllib2.URLError,e:
56     print e.reason
57
58 #way3. we command to handle exception in this way
59 try:
60     response = urllib2.urlopen(req) #接收数据
61 except urllib2.URLError,e:
62     if hasattr(e,‘code‘):
63         print ‘Error code:‘,e.code
64     elif hasattr(e,‘reason‘):
65         print ‘Reason:‘,e.reason
66
67 #eg7
68 from urllib2 import Request,urlopen,URLError,HTTPError
69 old_url = "http://www.baidu.com"
70 req = Request(old_url)
71 response = urlopen(req)
72 rel_url = response.geturl()
73 info = response.info()
74
75 #eg8 cookie
76 import urllib2
77 import cookielib
78 cookie = cookielib.CookieJar()
79 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
80 response = opener.open("http://www.baidu.com")
81 for item in cookie:
82     print item.name,item.
83
84 #eg9 正则表达式
85 import re
86 pattern = re.compile(r"hello")
87 match1 = pattern.match("hello world")
88 if match1:
89     print match1.group()
90 else:
91     print "match失败"
时间: 2024-10-11 05:27:53

python爬虫笔记的相关文章

Python 爬虫笔记(不定时更新)

参考笔记 虫师  http://www.cnblogs.com/fnng/p/3576154.html #自动访某个网址 from selenium import webdriver import time M = 100000 i = 0 URL = 'http://www.yyxxww.com/html/2015/edu_0318/3386.html' browser = webdriver.Firefox() #浏览器名字,以本机安装为准 while i < M: browser.get(

python爬虫笔记----4.Selenium库(自动化库)

4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_condition

python爬虫笔记_列表操作

列表是Python中最基本的数据结构,列表是最常用的Python数据类型,列表的数据项不需要具有相同的类型.列表中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推.Python有6个序列的内置类型,但最常见的是列表和元组.序列都可以进行的操作包括索引,切片,加,乘,检查成员.此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法. 一.创建一个列表只要把逗号分隔的不同的数据项使用方括号括起来即可.如下所示: list1 = ['physic

python爬虫笔记之re.compile.findall()

re.compile.findall原理是理解了,但输出不大理解(主要是加了正则表达式的括号分组) 一开始不懂括号的分组及捕捉,看了网上这个例子(如下),然而好像还是说不清楚这个括号的规律(还是说我没找到或是我理解能力太差),还是看不出括号的规律,于是更多的尝试(第二张大图),并最后总结规律. 下图是为了尝试出括号分组的规律,下面是总结 就从最后一次匹配说起吧 分析:首先是匹配的顺序,分析某个括号时,暂时去掉其它括号,易读 第一步,先对整个' '内的规则作出匹配,整体匹配,先去括号(易读),即先

python爬虫的一个常见简单js反爬

python爬虫的一个常见简单js反爬 我们在写爬虫是遇到最多的应该就是js反爬了,今天分享一个比较常见的js反爬,这个我已经在多个网站上见到过了. 我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,今天说的是第二种情况. 目标网站 列表页url:http://www.hnrexian.com/archives/category/jk. 正常网站我们请求url会返回给我们网页数据内容等,看看这个网站返回给我们的是什么呢? 我们把相应中返回的js代码格式化一下,方便查

《Python爬虫学习系列教程》学习笔记

转自:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流. 一.Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫

Python网络爬虫笔记(五):下载、分析京东P20销售数据

(一)  分析网页 下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1.      翻页的时候,谷歌F12的Network页签可以看到下面的请求. 从Preview页签可以看出,这个请求是获取评论信息的 2.      对比第一页.第二页.第三页-请求URL的区别 可以发现 page=0.page=1,0和1指的应该是页数. 第一页的 request url:没有这个rid=0& . 第二.三页-的request url:多了这个ri

python学习笔记之爬虫之爬取百度贴吧某一帖子

从大神这儿静觅 ? Python爬虫实战二之爬取百度贴吧帖子讲的很不错,按照步骤一步一步的做效果很明显.第一次真正做出一个小爬虫程序,所以在csdn写出来也是对自己的一种鞭策一种鼓励,不喜勿喷,还请大神不吝赐教. 因为大神博文讲的很详细(真心详细),所以步骤我就不一一细说了 先把自己的代码贴出来(大部分一样): #!/usr/bin/env python # coding=utf-8 import urllib2 import urllib import re class Tool(object

python爬虫(一)

本文主要是记录一下学习过程,相当于做一次笔记吧 主要参考崔庆才的Python爬虫学习系列教程(http://cuiqingcai.com/1052.html) 这里主要是一些Python的基础知识和爬糗事百科的一个实例: 一:基础知识 1.爬虫:趴在网络上的蜘蛛,遇见想要的资源,就会抓取下来. 2.浏览网页的过程:用户输入网站->DNS服务器->找到服务器主机->向服务器发送请求->服务器解析->发给浏览器相应的文件->浏览器解析 3.url:统一资源定位符(网址):是