爬虫的类型分为:通用型爬虫、聚焦型爬虫。
通用型爬虫指的是搜索引擎,
聚焦型爬虫指的是针对哪家网站做针对性的爬取。
接下来分析一下其各自的手段和方法。
反爬手段:IP频率限制,在一定时间内对服务器发起较高频率的网络请求的IP。
用户信息,需要用户名密码及验证码的验证,
ajax异步请求,页面无刷新
投毒型,要a给b
诱捕型,多层级存储文件
爬虫:IP代理,IP池,降低频率,模拟用户信息,模拟浏览器,
由爬虫引出的反爬虫、反反爬虫之间不仅是各大公司财力的抗衡,也是优秀的爬虫工程师之间技术的较量,
robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准” 是个君子协议,内容写的是哪些信息可以爬取,哪些信息不可以爬取,爬虫工程师根据自己意愿选择是否遵守
原文地址:https://www.cnblogs.com/lutt/p/10164741.html
时间: 2024-10-03 02:36:37