pythonl练习笔记——爬虫的初级、中级、高级所匹配的知识

1 初级爬虫

(1)Web前端的知识:HTML, CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等;

(2)正则表达式,能提取正常一般网页中想要的信息,比如某些特殊的文字,链接信息,知道什么是懒惰,什么是贪婪型的正则;

(3)会使用re, BeautifulSoup,XPath等获取一些DOM结构中的节点信息;

(4)知道什么是深度优先,广度优先的抓取算法,及实践中的使用规则;

(5)能分析简单网站的结构,会使用urllib,urllib2或requests库进行简单的数据抓取;

2 中级爬虫

(1)了解什么是Hash,会使用简单的MD5,SHA1等算法对数据进行Hash以便存储;

(2)熟悉HTTP,HTTPS协议的基础知识,了解GET,POST方法,了解HTTP头中的信息,包括返回状态码,编码,user-agent,cookie,session等;

(3)能设置User-Agent进行数据爬取,设置代理等;

(4)知道什么是Request,什么是Response,会使用Fiddle, Wireshark等工具抓取及分析简单的网络数据包;对于动态爬虫,要学会分析Ajax请求,模拟制造Post数据包请求,抓取客户端session等信息,对于一些简单的网站,能够通过模拟数据包进行自动登录;

(5)对于比较难搞定的网站,学会使用phatomjs+selenium抓取一些动态网页信息;

(6)并发下载,通过并行下载加速数据抓取;多线程的使用;

3 高级爬虫

(1)能使用Tesseract,百度AI等库进行验证码识别;

(2)能使用数据挖掘的技术,分类算法等避免死链等;

(3)会使用常用的数据库进行数据存储,查询,如Mongodb,Redis(大数据量的缓存)等;下载缓存,学习如何通过缓存避免重复下载的问题;Bloom Filter的使用;

(4)能使用机器学习的技术动态调整爬虫的爬取策略,从而避免被禁IP封号等;

(5)能使用一些开源框架Scrapy,Celery等分布式爬虫,能部署掌控分布式爬虫进行大规模的数据抓取;

原文地址:https://www.cnblogs.com/gengyi/p/9021741.html

时间: 2024-10-29 19:06:50

pythonl练习笔记——爬虫的初级、中级、高级所匹配的知识的相关文章

天草(初级+中级+高级)VIP和黑鹰VIP破解教程(全部iso下载地址)

以下就是我收集的教程地址,之前我收集到的都是一课一课下载的,虽然这样,我也下载完了天草的全部课程.这里分享的是在一起的iso文件,比起一课课下载爽多了.~~ 还有这些教程都是从零起点开始教的,不用担心学不会.~~ 个人建议先看脱壳~然后看破解的 _________________________________________________________________________________ 黑鹰VIP破解教程(50课时)第一课           破解工具的介绍 第二课     

马哥linux运维初级+中级+高级 视频教程 教学视频 全套下载(近50G)

马哥linux运维初级+中级+高级 视频教程 教学视频 全套下载(近50G)目录详情:18_02_ssl协议.openssl及创建私有CA18_03_OpenSSH服务及其相关应用09_01_磁盘及文件系统管理详解之三10_05_脚本编程之八 脚本完成磁盘分区格式化20_01_DNS主从复制及区域传送04_04_grep及正则表达式01_03_操作系统基础08_02_bash脚本编程之七 case语句及脚本选项进阶14_03_bash脚本编程之十一(Linux启动流程之三) SysV服务脚本01

更多免费初级中级高级大数据java视频教程下载 加(微***信((号keepper,请备注java或扫下面2二3维4码架构师148讲视频教程(71-80讲)

更多免费初级中级高级大数据java视频教程下载 加(微***信((号keepper,请备注java或扫下面2二3维4码架构师148讲视频教程(71-80讲)java视频教程第71节:ActiveMQ入门和消息中间件.avijava视频教程第72节:JMS基本概念和模型.avijava视频教程第73节:JMS的可靠性机制.avijava视频教程第74节:JMS的API结构和开发步骤.avijava视频教程第75节:Broker的启动方式.avijava视频教程第76节:ActiveMQ结合Spri

Python全栈初级 中级 高级,资料无偿分享,希望能对大家有所帮助

前言 想必有很多人想接触Python这门编程,但资料找的都是相对的零散,并不系统.这里我向大家提供一个系统的资料方便大家学习.在分享之前.我先来分享一下什么是Python.毕竟我们想学一门语言,首先我们肯定是先要了解它是不是.有很多想入门的小白想学但又不知道Python是什么,这真的是很尴尬,拿到了资料也不知道该怎么入手. Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言,具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特

极客学院iOS开发工程师初级+中级+高级视频教程

下载地址:百度网盘下载 课程目录: 初级IOS开发工程师 19课程 7小时50分职业介绍1.iOS 开发的前世今生C语言基础 1.二级 C 流程控制 2.二级 C 函数与指针 3.二级 C 数组4.二级 C 字符串5.二级 C 作用域.预处理与存储 6.二级 C 结构体与共用体 7.二级 C 文件Swift语言基础1.Swift 语言基础2.Swift 中的字符串和集合 3.Swift 中的函数和闭包 4.Swift 面向对象基础(上)5.Swift 面向对象基础(中) 6.Swift 面向对象

Hadoop全套视频(初级+中级+高级+项目实战)

一套相当给力的Hadopp云计算视频教程,从基础学习到高级项目学习,包括用到的一些代码等都附在其中.[300秒]强烈推荐,内容详见下图: 需要的午饭朋友,可以Q我:84287030

python 初级/中级/高级/核心

"一等对象": 满足条件:1.在运行时创建 2.能赋值给变量或数据结构中的元素 3.能作为参数传递给函数 4.能作为函数的返回结果 [ 整数.字符串.字典."所有函数" ]等都是一等对象 "什么是函数"调用:直接使用.不需要类或对象进行调用定义:定义在模块中.类体外作用:数据处理 "什么是方法"调用:不能直接使用.需要类或对象进行调用定义:定义在类体中作用:状态处理.状态(对象的属性.类的属性) "实例方法"

[热]全网最全的官方1+x证书web前端初级中级高级全课程分析及大纲

Web前端开发-职业技能等级标准1.pdf 更多尽在http://yueguang.online 原文地址:https://www.cnblogs.com/ali983/p/12578927.html

极客学院Web前端开发技术实战视频教程 初级入门+高级实战++专家课程+面试指导

===============课程目录=============== ├<初级中级>│  ├<1. HTML5开发前准备>│  │  ├1.HTML5开发前准备.mp4│  │  └2.开发前的准备-快捷键.mp4│  ├<10. React.js>│  │  ├React.js简介.txt│  │  ├<1.React 概述>│  │  │  ├React 开发环境搭建.mp4│  │  │  ├编写第一个 React 程序.mp4│  │  │  └什么