python2.7 urllib2 爬虫

# _*_ coding:utf-8 _*_

import urllib2
import cookielib
import random
import re
from bs4 import BeautifulSoup
import datetime

dax = datetime.datetime.now().strftime(‘%Y-%m-%d‘)
print(dax)

url = ‘http://ww=singlemessage&isappinstalled=0‘

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
request = urllib2.Request(url)
headers = [
‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)‘,
‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)‘,
‘Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11‘,
‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0‘,
‘Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50‘
]

hds = random.choice(headers)
# print(hds)
request.add_header(‘User-Agent‘,‘%s‘ % hds)
#response = urllib2.urlopen("http://www.hn1m=singlemessage&isappinstalled=0")
response = urllib2.urlopen(request)
cont = response.read()
#print(cont)

soup = BeautifulSoup(cont,‘html.parser‘,from_encoding=‘utf-8‘)
# print(soup)
# listyj = soup.find_all(‘dl‘)
# for listyjx in listyj:
# print(listyjx.name,listyjx.attrs,listyjx.gettext())
# # if dax in listyjx:
# # print(listyjx)

原文地址：https://www.cnblogs.com/ruiy/p/9193940.html

时间： 2024-10-07 22:21:20

python2.7 urllib2 爬虫的相关文章

python2.7 urllib2访问https 网站出错

今天发现平时每小时报表内容少了好几个table ,感觉好奇怪,这个代码很稳定跑了好长时间了,不知道哪里出来问题,幸亏代码做了异常处理.否则我估计邮件都会发不出来了,看了下日志文件,有报错日志记录如下: ` page = urllib2.urlopen(url, timeout=300) File "/usr/local/lib/python2.7/urllib2.py", line 154, in urlopenreturn opener.open(url, data, timeout

关于urllib、urllib2爬虫伪装的总结

站在网站管理的角度,如果在同一时间段,大家全部利用爬虫程序对自己的网站进行爬取操作,那么这网站服务器能不能承受这种负荷?肯定不能啊,如果严重超负荷则会时服务器宕机(死机)的,对于一些商业型的网站,宕机一秒钟的损失都是不得了的,这不是一个管理员能承担的,对吧?那管理员会网站服务器做什么来优化呢?我想到的是,写一个脚本,当检测到一个IP访问的速度过快,报文头部并不是浏览器的话,那么就拒绝服务,或者屏蔽IP等,这样就可以减少服务器的负担并让服务器正常进行. 那么既然服务器做好了优化,但你知道这是对爬虫

python2与python3爬虫get与post对比

python2中的urllib2改为python3中的urllib.request 四种方式对比: python2的get: # coding=utf-8 import urllib import urllib2 word = urllib.urlencode({"wd":"百度"}) url = 'http://www.baidu.com/s' + '?' + word request = urllib2.Request(url) print urllib2.ur

python2.x urllib2和urllib的使用

1.最简单用法 urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,...) 1 import urllib2 2 import urllib 3 4 5 response = urllib2.urlopen("http://www.baidu.com") 6 7 print 'getcode():',response.getcode() 8 print 'geturl():',response.geturl()

Python urllib2爬虫豆瓣小说名称和评分

#-*- coding:utf-8 -*- import urllib2 import re url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4' request = urllib2.Request(url) urlopen = urllib2.urlopen(request) content = urlopen.read() reg_0 = re.findall(r'title.+"\s*on', content) reg_1 = re.

python3--网络爬虫--爬取图片

网上大多爬虫仍旧是python2的urllib2写的,不过,坚持用python3(3.5以上版本可以使用异步I/O) 相信有不少人爬虫第一次爬的是Mm图,网上很多爬虫的视频教程也是爬mm图,看了某人的视频后,把这个爬虫给完成了因为爬取的内容涉及个人隐私,所以,爬取的代码及网址不在此公布,不过介绍一下爬取的经验: 1.我们首先得了解我们要爬取的是什么,在哪爬取这些信息,不要着急想用什么工具,怎么搞,怎么搞得 2.手动操作一遍爬虫要完成的任务,我这个就是爬图片的,可以自己操作一遍 3.打开抓包软件

爬虫页面

9.31 爬取百度 import urllib.request response=urllib.request.urlopen('http://www.baidu.com')print(response.read().decode('utf-8')) 爬取 10.1 主动提交url2.设置友情链接3.百度会和DNS服务商务合作,抓取新页面?爬取步骤1.给一个url2.写程序,模拟浏览器访问url3.解析内容,提取数据使用库 urllib\requests\bs4解析网页正则表达式\bs4\

Python爬虫连载1-urllib.request和chardet包使用方式

一.参考资料 1.<Python网络数据采集>图灵工业出版社 2.<精通Python爬虫框架Scrapy>人民邮电出版社 3.[Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) 4.[Python3网络爬虫](http://blog.csdn.net/c406495762/article/details/72858983 二.前提知识 url.http协议.web前端:html\

[python]爬虫学习（二）

---恢复内容开始--- #python2 import urllib2 #python3 import urllib.request html=urllib.request.urlopen('http://www.sogou.com')print (html) #<http.client.HTTPResponse object at 0x0000000002D84BA8print (html.read()) urllib.request, urllib.error, urllib.parse,

猜你喜欢

009-手势触摸事件处理

问题一:iOS中有哪些事件? •在用户使用app过程中,会产生各种各样的事件 •iOS中的事件可以分为3大类型问题二:什么叫响应者对象? •在iOS中不是任何对象都能处理事件,只有继承了UIResp ...

Java GC与finalize方法

1. Object类有一个finalize()方法,所有类都有这个方法. 2.JVM在回收(GC)一个对象时会调用这个对象的finalize()方法. 但是 GC是靠不住的. 3. JVM只有在内存不 ...

访问兄弟节点

访问兄弟节点 1. nextSibling 属性可返回某个节点之后紧跟的节点(处于同一树层级中). 语法: nodeObject.nextSibling 说明:如果无此节点,则该属性返回 null. ...

STL容器——对map排序

STL容器(三)——对map排序对于map的排序问题,主要分为两部分:根据key排序:根据value排序.下面我们就分别说一下~ 1. 根据key进行排序 map默认按照key进行升序排序 ,和输入 ...

Objective-C语法之扩展(Extension)的使用

Objective-C 2.0增加了Class Extension用于解决两个问题: 可声明私有可读写的属性,而在类的声明中是同名的公开只读属性,从而来支持公开只读.私有可读写的属性可声明私有方法: ...

iptables-save和iptables-restore

iptables-save用来把当前的规则存入一个文件里以备iptables-restore使用.它的使用很简单,只有两个参数: iptables-save [-c] [-t table] 参数-c的 ...

EasyUi Hibernate 增加编辑book对象，里面又有book类型对象；添加编辑时在combobox动态加载book的类型

最近弄book的增改花了不少时间,主要是在bookType上花的时间较多. Book @Entity @Table(name="T_Book") @DynamicInsert(tr ...

appfuse-maven-plugin(AMP)

mvn appfuse:gen -Dentity=Name 为POJO生成CRUD.Name的值默认是${groupId}.model.Name.自定义包路径:-Dentity=com.myproje ...

mbed系列--基于飞思卡尔FRDM KL25Z的鼠标设计快速实现

========================================================== 原创文章转载请注明:blog.csdn.net/guo8113 ========= ...

angular controller as syntax vs scope

今天要和大家分享的是angular从1.2版本开始带来了新语法Controller as.再次之前我们对于angular在view上的绑定都必须使用直接的scope对象,对于controller来说我 ...

Android-应用程序资源

Android-应用程序资源一资源 value资源: string:字符串 color:颜色颜色配置 A R G B FF0000FF dimen:尺寸 px:像素 m:英寸 pt:点距 mm ...

Firefox中Vimperator插件配置

具体配置什么,同学们可以网上看下善用佳软关于Vimperator的说明,在这里我列出两条我个人觉得最有用的命令 set nextpattern=\s*下一页|下一张|下一篇|下页|后页\s*,^\bn ...

php 派生类数据库连接单例模式 xhprof实测高效连接

. <?php //要解决的问题在一个方法中多次调用类 //多次调用父类相同的类 class Pdoo { public function __construct(){} //这是个数据库的 ...

1.PHP基础-变量

最近想对PHP知识做下整理,废话不多说.如果有错误和不足的地方,请各位园友毫不留情的使劲喷,在此表示感谢. PHP基础:PHP文件以.php 为后缀名PHP以<?php 开头,?>结尾格 ...

c++大作业--学籍管理系统--

1.题目描述学籍管理系统: 根据信息管理系统的业务流程.要求以及所要实现的目标,完成以下功能: (1)建立学生档案的管理和维护.实现计算机自动化管理体制. (2)建立学生成绩管理机制,在计算机的支持 ...

采用Android中的httpclient框架发送get请求

/** * 采用httpclientGet请求的方式 * * @param username * @param password * @return null表示求得的路径有问题,text返回请求得到 ...

Vue2.0学习笔记一：各种表达式

#,过滤器 #,在Vue2.x中,过滤器只能在mustache绑定中使用,为了在指令帮定中实现同样的行为,你应该使用计算属性: #,过滤器可以串联 {{ message | filterA | fil ...

CF832 D LCA倍增裸

有询问$a,b,c$,求a到c路径上,同时是a到b路径的点的个数.其中询问中的a,b,c可任意选择作为起点或终点,求一组询问中最大值. LCA用于计算树上点对间距离,对于一组询问求深度最大的点作为起点 ...

VTK序列图像的读取[转][改]

医学图像处理的应用程序中,经常会碰到读取一个序列图像的操作.比如CT.MR等所成的图像都是一个切面一个切面地存储的,医学图像处理程序要处理这些数据,第一步当然是把这些数据从磁盘等外部存储介质中导入内存 ...

几何画板构造象限平分线的步骤

几何画板在现代教学中常常作为多媒体教学的辅助工具,常常被老师们用来演示各种图形之间的关系,但是一些老师对于几何画板的应用还不是那么熟练,使用过程中难免有一些不清楚的地方.比如,如何用几何画板构造象限的 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.