一. 基本介绍
什么是爬虫? - 就是抓取网页数据的程序 怎么抓取网页数据 网页三大特征: - 每个网页都有自己的URL (统一资源定位符) 来进行定位 - 网页都是用HTML(超文本标记语言)来描述页面信息 - 网页都使用HTTP/HTTPS(超文本传输协议)来传输HTML数据 爬虫的设计思路: -1. 首先确定需要爬取的网页URL地址 -2. 通过HTTP/HTTPS协议来获取对应的HTML页面 -3. 提取HTML页面里面有用的数据 a. 如果是需要的数据,就保存起来。 b. 如果是页面里的其它URL,那就继续执行第二步。 为什么选择Python做爬虫? - PHP 对多线程 异步支持不够好 并发处理很弱 - Java Python爬虫的最大对手,但是Java语言本身很笨重,代码量很大,重构成本比较高 - C/C++ 运行效率几乎最强,但是学习成本很高,代码成型比较慢 - Python 语言优美,代码简洁,开发效率高,支持的模块多,相关的HTTP请求模块和 还有强大的爬虫Scrapy 以及成熟高效的scrapy-redis分布式策略 而且 调用其他接口也非常方便(胶水语言)
时间: 2024-10-27 17:06:18