1.什么是爬虫?
请求网站并提取数据的自动化程序(让程序替你去上网)
2.爬虫的基本流程
(1)向服务器发起请求
(2)获取网页内容
(3)解析内容
(4)保存数据
3.什么是request和response
请求与响应:
浏览器与服务器(也是一台计算机)之间的交流。
4.request中包含了什么?
(1)请求方式(get,post)
(2)请求的URL
(3)请求头信息
(4)请求体(例如post请求的表单信息)
5.response中包含了什么?
(1)响应状态码(200 0K 404 NO FOUND)
(2)响应头
(3)响应体
6.爬虫可以抓怎样的数据?
网页文本,图片,视频
7.如何解析?
(1)直接处理
(2)json解析
(3)正则表达式
(4)beautifulsoup解析库(pyquery)
8如何保存数据?
文本,关系型数据库,非关系型数据库(key-value),二进制文本
原文地址:https://www.cnblogs.com/CszShuzi/p/9535029.html
时间: 2024-10-31 06:42:15