八月份课堂--Python爬虫（Spider）基础

一、爬虫（Spider）

请求网站，提取网页内容的最大化程序。获取到的是html代码，需要从这些文本中提取需要的数据。

HTTP：是互联网上应用最为广泛的一种网络协议，是一个客户端和服务器端请求和应答的标准（TCP），用于从WWW服务器传输超文本到本地浏览器的传输协议，它可以使浏览器更加高效，使网络传输减少。

HTTPS：是以安全为目标的HTTP通道，简单讲是HTTP的安全版，即HTTP下加入SSL层，HTTPS的安全基础是SSL，因此加密的详细内容就需要SSL。

SSL(Secure Sockets Layer 安全套接层)是为网络通信提供安全及数据完整性的一种安全协议。SSL在传输层对网络连接进行加密

公众平台接口不再支持http方式调用,在 2017年12月30日后所有网站都必须是 HTTPS 方式调用

URL(统一资源定位符)基本格式：

基本格式：scheme://host[:port#]/path/.../[?query-string][#anchor]
scheme：协议。如：http、https、ftp
host：服务器的IP地址or域名。如：192.168.0.11
port#：服务器的端口。（http默认端口为80，https默认端口为443）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页的指定铺点链接地址）

GET是从服务器上获取数据，POST是向服务器传送数据。

在客户端， GET方式在通过URL提交数据，数据在URL中可以看到；POST方式，数据放置在HTML HEADER内提交

GET请求相当于我们在数据库中做了查询的操作，不影响数据库本身的数据。

POST请求相当于在数据库中做了修改的操作，会影响数据库本身的数据（如：注册、发帖、评论、得到积分，此时服务器资源状态发生了改变）。

简单的例子：

https://www.cnblogs.com/zhaof/p/6910871.html

Python爬虫框架：python的urllib包提供了较为完整的访问网页文档的API

模拟浏览器行为，模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理

原文地址：https://www.cnblogs.com/liurg/p/11144325.html

时间： 2024-10-08 12:34:19

八月份课堂--Python爬虫（Spider）基础

八月份课堂--Python爬虫（Spider）基础的相关文章

python爬虫之基础学习（一）

python爬虫相关基础概念

python 爬虫urllib基础示例

python爬虫---mongodb基础

Python爬虫-正则表达式基础

Python网络爬虫入门，带你领略Python爬虫的乐趣！

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

零基础写python爬虫之使用Scrapy框架编写爬虫

小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战