一、爬虫项目
1、爬虫基础
a、网页上面会有相同的数据
b、去重处理
布隆过滤器
哈希存储
c、标签匹配:
正则表达式
beautiful soup或lxml这种标签提取库
d、动态内容
phantomjs
selenium
二、
原文地址:https://www.cnblogs.com/nulige/p/10386915.html
时间: 2024-11-15 09:35:32
一、爬虫项目
1、爬虫基础
a、网页上面会有相同的数据
b、去重处理
布隆过滤器
哈希存储
c、标签匹配:
正则表达式
beautiful soup或lxml这种标签提取库
d、动态内容
phantomjs
selenium
二、
原文地址:https://www.cnblogs.com/nulige/p/10386915.html