python爬虫-基础入门-爬取整个网站《3》

描述：

　　前两章粗略的讲述了python2、python3爬取整个网站，这章节简单的记录一下python2、python3的区别

python2.x 使用类库：

　　>> urllib 库

　　>> urllib2 库

python3.x 使用的类库：

　　>> urllib 库

变化：

-> 在python2.x中使用import urllib2 ----- 对应的，在python3.x 中会使用import urllib.request , urllib.error

-> 在python2.x中使用import urllib ----- 对应的，在python3.x中使用import urllib.request， urllib.error， urllib.parse

-> 在python2.x中使用import urlparse ----- 对应的，在python3.x 中会使用 import urllib.parse

-> 在python2.x中使用import urlopen ----- 对应的，在python3中会使用import urllib.request.urlopen

-> 在python2.x中使用import urlencode ----- 对应的，在python3.x中会使用 import urllib.parse.urlencode

-> 在python2.x中使用import urllib.quote -----对应的，在python3.x中使用 import urllib.request.quote

-> 在python2.x中使用cookielib.CookieJar ------ 对应的，在python3.x中会使用http.CookieJar

-> 在python2.x中使用urllib2.Request ------ 对应的，在python3.x中会使用urllib.request.Request

如有问题，欢迎纠正！！！

如有转载，请标明源处：https://www.cnblogs.com/Charles-Yuan/p/9903339.html

原文地址：https://www.cnblogs.com/Charles-Yuan/p/9903339.html

时间： 2024-12-26 10:36:43

python爬虫-基础入门-爬取整个网站《3》的相关文章

基于python爬虫项目，爬取某网站电子书，实战项目

1.主要反扒机制2.爬虫失败机制3.分析机制4.暂停续点爬取机制5.如需合作,请加我qq752477168,或者私信6.项目效果图原文地址:https://blog.51cto.com/12119115/2453310

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

教你分分钟学会用python爬虫框架Scrapy爬取你想要的内容

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 python爬虫学习课程,下载地址:https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 课程代码原件:课程视频: 原文地址:http://blog.51cto.com/aino007/2123341

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文

python爬虫之小说爬取

废话不多说,直接进入正题. 今天我要爬取的网站是起点中文网,内容是一部小说. 首先是引入库 from urllib.request import urlopen from bs4 import BeautifulSoup 然后将网址赋值 html=urlopen("http://read.qidian.com/chapter/dVQvL2RfE4I1/hJBflakKUDMex0RJOkJclQ2.html") //小说的第一章的网址 bsObj=BeautifulSoup(html)

python爬虫实战,多线程爬取京东jd html页面：无需登录的网站的爬虫实战

[前言] # 本脚本用来爬取jd的页面:http://list.jd.com/list.html?cat=737,794,870到 # ......http://list.jd.com/list.html?cat=737,794,870&page=11&JL=6_0_0的所有html的内容和图片. # 本脚本仅用于技术交流,请勿用于其他用途 # by River # qq : 179621252 # Date : 2014-12-02 19:00:00 [需求说明] 以京东为示例,爬取页面

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938 禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员还是写个程序来进行吧! 所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取. 前面讲过太多Python爬虫相关的文章了,如爬取新浪博客.维基百科Infobox.百度百科.游迅网图片,也包括Selenium安装过程等等,详见我的两个专栏:

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动.测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然,最重要的是你也可以尝