1.爬虫入门:使用代码模拟真实用户发送网络请求批量获取数据1).爬虫价值: 1.买卖数据(高端领域特别贵) 2.数据分析(出分析报告) 3.流量 4.阿里指数,百度指数2).合法性:灰色产业政府没有法律规定爬虫是否违法 公司概念:公司让你爬取数据 爬虫是否可以爬所有的东西?不可以,爬虫只能爬取到用户可以访问的数据 爱奇艺视频(vip 用户,非 vip 用户) 付费小说(付费才能爬取) 2.爬虫分类: 1.通用爬虫:使用搜索引擎:百度,360,谷歌... 劣势:目标不明确,返回的内容90%是用户不需要的,不清楚用户的需求在哪里 优势:开放性,速度快 2.聚焦爬虫: 优势:目标明确,对用户的需求非常精准,返回的内容固定 3.增量式爬虫:翻页,从第一页爬到最后一页 4.Deep,深度爬虫:静态数据 html,动态数据:js 代码,加密的 js robost协议:是否允许其他爬虫(通用爬虫)爬取某些内容 3.爬虫的工作原理: 1.查询你抓取目标的 url(必须的,难) 2.使用 Python 代码发送请求获取数据 3.解析获取道德数据(精准数据) 4.数据持久化
原文地址:https://www.cnblogs.com/zimengfang/p/10158737.html
时间: 2024-10-08 05:53:37