python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html)

Python版本:2.7

整体目录:

一、爬虫入门

1. Python爬虫入门一之综述

2. Python爬虫入门二之爬虫基础了解

3. Python爬虫入门三之Urllib库的基本使用

4. Python爬虫入门四之Urllib库的高级用法

5. Python爬虫入门五之URLError异常处理

6. Python爬虫入门六之Cookie的使用

7. Python爬虫入门七之正则表达式

二、爬虫实战

1. Python爬虫实战一之爬取糗事百科段子

2. Python爬虫实战二之爬取百度贴吧帖子

3. Python爬虫实战三之实现山东大学无线网络掉线自动重连

4. Python爬虫实战四之抓取淘宝MM照片

5. Python爬虫实战五之模拟登录淘宝并获取所有订单

6. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

7. Python爬虫实战七之计算大学本学期绩点

8. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

三、爬虫利器

1. Python爬虫利器一之Requests库的用法

2. Python爬虫利器二之Beautiful Soup的用法

3. Python爬虫利器三之Xpath语法与lxml库的用法

4. Python爬虫利器四之PhantomJS的用法

5. Python爬虫利器五之Selenium的用法

6. Python爬虫利器六之PyQuery的用法

四、爬虫进阶

1. Python爬虫进阶一之爬虫框架概述

2. Python爬虫进阶二之PySpider框架安装配置

3. Python爬虫进阶三之爬虫框架Scrapy安装配置

4. Python爬虫进阶四之PySpider的用法

<img data-rawheight="80" data-rawwidth="1000" src="//pic.ikafan.com/imgp/L3Byb3h5L2h0dHBzL3BpYzQuemhpbWcuY29tL2NiMTk4ODgyN2ViNTMwMDJlYmI5ZDNhYzk4NjRkMTk3X2IucG5n.jpg" class="origin_image zh-lightbox-thumb" width="1000" data-original="https://pic4.zhimg.com/cb1988827eb53002ebb9d3ac9864d197_r.png">

第二(第一的姊妹篇):Python爬虫入门教程(来源于博主:blog.csdn.net/column/details/why-bug.html)

Python版本:2.7

教程目录:

[Python]网络爬虫(一):抓取网页的含义和URL基本构成

[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容

[Python]网络爬虫(三):异常的处理和HTTP状态码的分类

[Python]网络爬虫(四):Opener与Handler的介绍和实例应用

[Python]网络爬虫(五):urllib2的使用细节与抓站技巧

[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫

[Python]网络爬虫(七):Python中的正则表达式教程

[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)

[Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析

[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)

[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!

[Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程

<img data-rawheight="80" data-rawwidth="1000" src="//pic.ikafan.com/imgp/L3Byb3h5L2h0dHBzL3BpYzQuemhpbWcuY29tL2IwYTFkMjcwYjQ1YzE3ZGQ4YzNlODU3ZDc2YmMwYzQ3X2IucG5n.jpg" class="origin_image zh-lightbox-thumb" width="1000" data-original="https://pic4.zhimg.com/b0a1d270b45c17dd8c3e857d76bc0c47_r.png">

第三:你已经看完上面(第一或者第二)的教程:再推荐知乎用户@陈唯源 的实战练习博客

Python爬虫学习记录(1)——Xiami全站播放数

Python爬虫学习记录(2)——LDA处理歌词

百度音乐带标签,作曲,演唱者,类别的歌词数据

Python爬虫学习记录(4)——传说中的足彩倍投法。。好像也不是那么靠谱

2011~2013.5全球所有足球比赛比分数据以及足彩各公司盘口

Python爬虫学习记录(3)——用Python获取虾米加心歌曲,并获取MP3下载地址

Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜

Python爬虫学习记录(0)——Python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)

第四:最后推荐知乎用户@gaga salamer 的实战练习博客

爬虫教程(1)基础入门

爬虫教程(2)性能进阶

知乎用户信息爬虫(规模化爬取)

用scrapy爬取豆瓣电影新片榜

用scrapy对豆瓣top250页面爬取(多页面爬取)

用scrapy自动爬取下载图片

用scrapy自动下载石原sama的豆瓣影人图集(727张图片,自动下载)

希望以上的教程可以帮助到大家。

<img data-rawheight="80" data-rawwidth="1000" src="//pic.ikafan.com/imgp/L3Byb3h5L2h0dHBzL3BpYzQuemhpbWcuY29tL2EwYjRlNTRiMDk4N2FlNmQ0M2E2ODRjMTNhZTdjNTliX2IucG5n.jpg" class="origin_image zh-lightbox-thumb" width="1000" data-original="https://pic4.zhimg.com/a0b4e54b0987ae6d43a684c13ae7c59b_r.png"> 如果你想学习编程,但是找不到学习路径和资源,欢迎关注专栏:

如果你想学习编程,但是找不到学习路径和资源,欢迎关注专栏:学习编程

如何一步一步的学Java - 知乎专栏
C、C++语言学习资料 - 知乎专栏
学好Python的11个优秀资源 - 知乎专栏
程序员把妹指南之修电脑篇 - 知乎专栏
编程教程资源整理汇总- 知乎专栏
免费实用的API接口 - 知乎专栏
零基础如何开发游戏 - 知乎专栏
代码编辑器的配色方案 - 知乎专栏

作者:路人甲
链接:https://www.zhihu.com/question/47883186/answer/110052796
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

时间: 2024-12-19 15:25:44

python网络爬虫学习资料的相关文章

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍: 2. 从简单语句中开始: 3. 传送数据给服务器 4. HTTP头-描述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 11. Deb

python 网络爬虫学习笔记(一)

为了方便,在Windows下我用了PyCharm,个人感觉这是一款优秀的python学习软件.爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来. 学习python爬虫前,先学习下其他的一些知识: (一)url URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址.互联网上的每个文件都有一个唯一的URL,

Python网络爬虫学习手记(1)——爬虫基础

1.爬虫基本概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科 简单的说,爬虫就是获取目标网页源代码,并提取和保存网页信息的自动化程序或者脚本.网络爬虫脚本或者程序一般包含如下几个步骤: A.获取网页源代码 爬虫首要的任务就是获取需要爬取的目标网页,也就是网页源代码,一般网页源代码就是一系列HTML代码 B.提取信息 得到了网页源代码后,接下来就是分析该HTML代码,按照一

python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢 一.新的问题与工具 平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三比一的工科院校--写代码之余看看美女也是极好的放松方式.但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了.于是,我开始考虑用万能的python来解决问题. 我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?

python网络爬虫学习随笔

---恢复内容开始--- requests库的7个主要方法 方法 描述 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法,对应于HTTPde POST requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP

Python网络爬虫使用总结

网络爬虫使用总结:requests–bs4–re技术路线 简要的抓取使用本技术路线就能轻松应对.参见:Python网络爬虫学习笔记(定向) 网络爬虫使用总结:scrapy(5+2结构) 使用步骤: 第一步:创建工程: 第二步:编写Spider: 第二步:编写Item Pipeline: 第四步:优化配置策略: 工程路径: 网络爬虫使用总结:展望(PhantomJS) 如上所有的两条记录路线仅仅是对网页的处理,只能爬取单纯的html代码.就需要引出"PhantomJS",PhantomJ

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

学习《从零开始学Python网络爬虫》PDF+源代码+《精通Scrapy网络爬虫》PDF

学习网络爬虫,基于python3处理数据,推荐学习<从零开始学Python网络爬虫>和<精通Scrapy网络爬虫>. <从零开始学Python网络爬虫>是基于Python 3的图书,代码挺多,如果是想快速实现功能,这本书是一个蛮好的选择. <精通Scrapy网络爬虫>基于Python3,深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧. 学习参考: <从零开始学Python网络爬虫>PDF,279页,带目录,文字可复制: 配套

爬虫学习 04.Python网络爬虫之requests模块(1)

爬虫学习 04.Python网络爬虫之requests模块(1) 引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监