爬虫基础篇1--爬虫原理

1.什么是爬虫?
请求网站并提取数据的自动化程序(让程序替你去上网)

2.爬虫的基本流程
(1)向服务器发起请求
(2)获取网页内容
(3)解析内容
(4)保存数据

3.什么是request和response
请求与响应:
浏览器与服务器(也是一台计算机)之间的交流。

4.request中包含了什么?
(1)请求方式(get,post)
(2)请求的URL
(3)请求头信息
(4)请求体(例如post请求的表单信息)

5.response中包含了什么?
(1)响应状态码(200 0K 404 NO FOUND)
(2)响应头
(3)响应体

6.爬虫可以抓怎样的数据?
网页文本,图片,视频

7.如何解析?
(1)直接处理
(2)json解析
(3)正则表达式
(4)beautifulsoup解析库(pyquery)

8如何保存数据?
文本,关系型数据库,非关系型数据库(key-value),二进制文本

原文地址:https://www.cnblogs.com/CszShuzi/p/9535029.html

时间: 2024-10-31 06:42:15

爬虫基础篇1--爬虫原理的相关文章

爬虫基础 2.1 http原理

爬虫基础 2.1 http基础原理 写爬虫为啥要了解http的原理? 为了简要的理解http的请求响应过程,便于爬虫的流程的掌握. 2.11 URL和URL ????URI:统一资源标志符号 ????URN: 统一资源名称 命名资源 ????URL:统一资源定位符号 指定资源访问位置 例如网页链接 ? ????资源:指的是网络上所有可以获得的内容的统称 2.12 超文本 ????网页的源代码HTML文件可以看作超文本, 超文本"页面内可以包含图片.链接,甚至音乐.程序等非文字元素 超文本是收集,

爬虫基础篇-BeautifulSoup解析

安装:Installing Beautiful Soup4?功能:BeautifulSoup用于从HTML和XML文件中提取数据 常用场景:网页爬取数据或文本资源后,对其进行解析,获取所需信息 以下详细的介绍了beautifulsoup的基础用法 1.结构 BeautifulSoup 将html文档转换成树形结构对象,包含:① tag(原html标签,有name和attribute属性)?② NavigableString(包装tag中的字符串,通过string获得字符串)③ Beautiful

C++基础篇--虚函数原理

虚函数算是C++最关键和核心的内容之一,是组件的基础.下面先列出一些相关名词,再围绕它们举例说明虚函数的本质实现原理. 基础概念(英文部分来自C++编程思想) 1)绑定:Connectinga function call to a function body is called binding.(把函数调用和函数实现关联的过程) 2)早绑定:Whenbinding is performed before the program is run (by the compiler and linker

传智的光辉岁月-C#基础篇一编译原理

时间过的真快,不知不觉已经从传智出来,工作一个月了啊,想想当初自己的所有努力和付出都是值得的,当初来传智可以说是走头无路,唯有努力的向前冲,在这里满满的正能量,激烈着我一直努力,胜利就在前面,只要你能坚持坚持~~~对于我这样的一个新手而言,现在最重要的就是技术积累,一入IT深似海,我要学的东西还真的很多很多... 以前一直没时间,现在在工作之余,想把自己以前学的东西整理一套笔记,供.NET爱好者,和自己以后翻阅参考.... 好了直接上代码... using System; namespace H

运维学python之爬虫高级篇(六)scrapy模拟登陆

上一篇介绍了如何爬取豆瓣TOP250的相关内容,今天我们来模拟登陆GitHub. 1 环境配置 语言:Python 3.6.1 IDE: Pycharm 浏览器:firefox 抓包工具:fiddler 爬虫框架:Scrapy 1.5.0 操作系统:Windows 10 家庭中文版 2 爬取前分析 分析登陆提交信息分析登陆信息我使用的是fiddler,fiddler的使用方法就不作介绍了,大家可以自行搜索,首先我们打开github的登陆页面,输入用户名密码,提交查看fiddler获取的信息,我这

零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(基础篇)

实现目的:爬取昆明市范围内的全部中学数据,包括名称.坐标. 先进入基础篇,本篇主要讲原理方面,并实现步骤分解,为python代码编写打基础. 因为是0基础开始,所以讲得会比较详细. 如实现目的所讲,爬取昆明市全部中学数据,就是获取百度地图上昆明市范围内所有关键字带中学的地理信息数据(兴趣点). 怎么把百度地图上的数据抓取下来呢? 以下是教程: 本篇目录如下: 1. 百度地图开放平台注册,AK获取 2.关于ak的说明 3.请求URL说明 4.百度地图坐标拾取器 5.以坐标范围获取兴趣点POI 6.

运维学python之爬虫中级篇(六)基础爬虫

通过这么多天对爬虫的介绍, 我们对爬虫也有所了解,今天我们将引入一个简单爬虫的技术架构,解释爬虫技术架构中的几个模块,后面的爬虫也多是今天架构的延伸,只不过这个架构是简单的实现,对优化.爬取方式等不是很完善,主要为了方便大家对爬虫的理解和后面的编程. 1 基础架构和流程 简单的爬虫架构由以下几部分构成:爬虫调度器:总体协调其它几个模块的工作URL管理器:负责管理URL,维护已经爬取的URL集合和未爬取的URL集合网页下载器:对未爬取的URL下载网页解析器:解析已下载的html,并从中提取新的UR

学习爬虫看着篇(基础篇)

1.爬虫的定义 网络爬虫(又称网络蜘蛛)模拟客户端发送网络请求,接收请求响应,自动的进行抓取网络数据的程度. 注意: 网络爬虫在进行抓取数据的时候并不能进行辨别信息真伪(比如某直播平台直播房间显示在线观看人数100w,在这个数量上会有一些是运营商加上去的数据,比如真正在线人数80w运营商再加上去20w,网络爬虫抓取的就是100w和用户在浏览器中看到的一样)网络爬虫仅仅是可以爬到用户在浏览器可以看到的. 2.爬虫的目的 1.建立网站 进行数据展示 (某新闻网) ? 某新闻网,并不是做新闻的公司,用

Python分布式爬虫、信息检索、搜索引擎原理及应用视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv