pythonl练习笔记——爬虫的初级、中级、高级所匹配的知识

1 初级爬虫

（1）Web前端的知识：HTML, CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等；

（2）正则表达式，能提取正常一般网页中想要的信息，比如某些特殊的文字，链接信息，知道什么是懒惰，什么是贪婪型的正则；

（3）会使用re, BeautifulSoup，XPath等获取一些DOM结构中的节点信息；

（4）知道什么是深度优先，广度优先的抓取算法，及实践中的使用规则；

（5）能分析简单网站的结构，会使用urllib，urllib2或requests库进行简单的数据抓取；

2 中级爬虫

（1）了解什么是Hash，会使用简单的MD5,SHA1等算法对数据进行Hash以便存储；

（2）熟悉HTTP,HTTPS协议的基础知识,了解GET，POST方法,了解HTTP头中的信息，包括返回状态码，编码，user-agent，cookie，session等；

（3）能设置User-Agent进行数据爬取，设置代理等；

（4）知道什么是Request，什么是Response，会使用Fiddle, Wireshark等工具抓取及分析简单的网络数据包；对于动态爬虫，要学会分析Ajax请求，模拟制造Post数据包请求，抓取客户端session等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录；

（5）对于比较难搞定的网站，学会使用phatomjs+selenium抓取一些动态网页信息；

（6）并发下载，通过并行下载加速数据抓取；多线程的使用；

3 高级爬虫

（1）能使用Tesseract，百度AI等库进行验证码识别；

（2）能使用数据挖掘的技术，分类算法等避免死链等；

（3）会使用常用的数据库进行数据存储，查询，如Mongodb，Redis(大数据量的缓存)等；下载缓存，学习如何通过缓存避免重复下载的问题；Bloom Filter的使用；

（4）能使用机器学习的技术动态调整爬虫的爬取策略，从而避免被禁IP封号等；

（5）能使用一些开源框架Scrapy，Celery等分布式爬虫，能部署掌控分布式爬虫进行大规模的数据抓取；

原文地址：https://www.cnblogs.com/gengyi/p/9021741.html

时间： 2024-10-29 19:06:50

pythonl练习笔记——爬虫的初级、中级、高级所匹配的知识的相关文章

天草(初级+中级+高级)VIP和黑鹰VIP破解教程(全部iso下载地址)

以下就是我收集的教程地址,之前我收集到的都是一课一课下载的,虽然这样,我也下载完了天草的全部课程.这里分享的是在一起的iso文件,比起一课课下载爽多了.~~ 还有这些教程都是从零起点开始教的,不用担心学不会.~~ 个人建议先看脱壳~然后看破解的 _________________________________________________________________________________ 黑鹰VIP破解教程(50课时)第一课破解工具的介绍第二课

马哥linux运维初级+中级+高级视频教程教学视频全套下载(近50G)

马哥linux运维初级+中级+高级视频教程教学视频全套下载(近50G)目录详情:18_02_ssl协议.openssl及创建私有CA18_03_OpenSSH服务及其相关应用09_01_磁盘及文件系统管理详解之三10_05_脚本编程之八脚本完成磁盘分区格式化20_01_DNS主从复制及区域传送04_04_grep及正则表达式01_03_操作系统基础08_02_bash脚本编程之七 case语句及脚本选项进阶14_03_bash脚本编程之十一(Linux启动流程之三) SysV服务脚本01

Python全栈初级中级高级，资料无偿分享，希望能对大家有所帮助

前言想必有很多人想接触Python这门编程,但资料找的都是相对的零散,并不系统.这里我向大家提供一个系统的资料方便大家学习.在分享之前.我先来分享一下什么是Python.毕竟我们想学一门语言,首先我们肯定是先要了解它是不是.有很多想入门的小白想学但又不知道Python是什么,这真的是很尴尬,拿到了资料也不知道该怎么入手. Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言,具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特

极客学院iOS开发工程师初级+中级+高级视频教程

下载地址:百度网盘下载课程目录: 初级IOS开发工程师 19课程 7小时50分职业介绍1.iOS 开发的前世今生C语言基础 1.二级 C 流程控制 2.二级 C 函数与指针 3.二级 C 数组4.二级 C 字符串5.二级 C 作用域.预处理与存储 6.二级 C 结构体与共用体 7.二级 C 文件Swift语言基础1.Swift 语言基础2.Swift 中的字符串和集合 3.Swift 中的函数和闭包 4.Swift 面向对象基础(上)5.Swift 面向对象基础(中) 6.Swift 面向对象

Hadoop全套视频(初级+中级+高级+项目实战）

一套相当给力的Hadopp云计算视频教程,从基础学习到高级项目学习,包括用到的一些代码等都附在其中.[300秒]强烈推荐,内容详见下图: 需要的午饭朋友,可以Q我:84287030

python 初级/中级/高级/核心

"一等对象": 满足条件:1.在运行时创建 2.能赋值给变量或数据结构中的元素 3.能作为参数传递给函数 4.能作为函数的返回结果 [ 整数.字符串.字典."所有函数" ]等都是一等对象 "什么是函数"调用:直接使用.不需要类或对象进行调用定义:定义在模块中.类体外作用:数据处理 "什么是方法"调用:不能直接使用.需要类或对象进行调用定义:定义在类体中作用:状态处理.状态(对象的属性.类的属性) "实例方法"

[热]全网最全的官方1+x证书web前端初级中级高级全课程分析及大纲

Web前端开发-职业技能等级标准1.pdf 更多尽在http://yueguang.online 原文地址:https://www.cnblogs.com/ali983/p/12578927.html

极客学院Web前端开发技术实战视频教程初级入门+高级实战++专家课程+面试指导

===============课程目录=============== ├<初级中级>│ ├<1. HTML5开发前准备>│ │ ├1.HTML5开发前准备.mp4│ │ └2.开发前的准备-快捷键.mp4│ ├<10. React.js>│ │ ├React.js简介.txt│ │ ├<1.React 概述>│ │ │ ├React 开发环境搭建.mp4│ │ │ ├编写第一个 React 程序.mp4│ │ │ └什么