第一、爬虫及其行为方式
1.根集
2.连接的提取和相对链接的标准化
从页面提取出链接,然后把相对链接转化为绝对链接
3.避免环路的出现
4.循环和复制
5.记录爬过得链接
- 树和散列表
- 有损的存在位图
- 集群和索引
6.规范URL
7.避免循环和重复
- 规范URL
- 广度优先的爬行
- 节流:限制一段时间内机器人可以从一个WEB站点获取的页面的数量
- 限制URL的大小
- URL/站点黑白名单
- 内容识别
- 模式检测
- 人工监视
8.机器人的HTTP
http1.1加host首部
9.web站点和robots.txt文件
1.获取robots.txt
2.robots文件采用了非常简单的、面向行的语法
robotx.txt有三种类型的行:空行、注释行、规则行
User-Agent:<robot-name>
Disallow:URL list
机器人将期望访问的url与上面的URL list做比较,如果不在list内,说明可以访问该URL
web爬虫
时间: 2024-10-17 06:18:37