doraemon的python 爬虫 http和https的区别

1.http和https

http:
- 概念:clinet和Server进行数据交互的某种形式
常用的头信息:
- User-Agent:请求载体的身份标识
- Connection:close
- content-type:
https:
- 概念:安全的http协议
- 证书
  - 对称秘钥加密
    - 在本地用公钥进行加密，然后将数据和私钥发送给服务端
  - 非对称秘钥加密
    - 由服务端提供公钥，客户端进行加密后在传送给服务端
  - 证书秘钥加密方式
    - 服务端将公钥发送给证书机构，然后给公钥打标记，在发送给客户端

爬虫相关概述

爬虫概念:
- 通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
  - 模拟:浏览器就是一款纯天然的原始的爬虫工具
爬虫分类:
- 通用爬虫:爬取一整张页面中的数据. 抓取系统(爬虫程序)
- 聚焦爬虫:爬取页面中局部的数据.一定是建立在通用爬虫的基础之上
- 增量式爬虫:用来监测网站数据更新的情况.以便爬取到网站最新更新出来的数据
风险分析
- 合理的的使用
- 爬虫风险的体现:
  - 爬虫干扰了被访问网站的正常运营；
  - 爬虫抓取了受到法律保护的特定类型的数据或信息。
- 避免风险:
  - 严格遵守网站设置的robots协议；
  - 在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
  - 在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。
反爬机制
反反爬策略
robots.txt协议:文本协议,在文本中指定了可爬和不可爬的数据说明.

原文地址：https://www.cnblogs.com/doraemon548542/p/11964356.html

时间： 2024-11-04 14:03:55

doraemon的python 爬虫 http和https的区别的相关文章

python爬虫Urllib实战

Urllib基础 urllib.request.urlretrieve(url,filenname) 直接将网页下载到本地 import urllib.request >>> urllib.request.urlretrieve("http://www.hellobi.com",filename="D:\/1.html") ('D:\\/1.html', <http.client.HTTPMessage object at 0x0000000

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

目录(?)[+] 前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容. 希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938 禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

【00】Python爬虫初次开发

我的第00篇博客 Python爬虫初次开发: 这周四讲了正则表达式,晚上就开始摸索着写一个网络爬虫.这个爬虫的功能就是从指定的网页开始,爬取这个网页里所有的链接,然后进入这些链接继续爬取新的链接,不断继续这个过程,并保存下所有爬取到的链接.这个爬虫目前还没有什么实际用处,后续可以在此基础上开发搜索指定信息等功能. 这个Python程序将用到以下模块:urllib, re, time urllib:用来调用urlopen函数打开链接 re:编译正则表达式 time:用于计时[可选] 以下是我的代码

Python爬虫的Urllib库有哪些高级用法？

本文和大家分享的主要是python爬虫的Urllib库的高级用法相关内容,一起来看看吧,希望对大家学习python有所帮助. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服.所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来. imp

Python爬虫利器：Selenium的用法

本文和大家分享的主要是python 爬虫利器Selenium的相关内容,一起来看看吧,希望对大家学习python爬虫有所帮助. Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome , Safari , Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现 Web界面的测试.换句话说叫 Selenium 支持这些浏览器驱动.话说回来, PhantomJS 不也是一个浏览器吗,那么 S

python爬虫积累（一）--------selenium+python+PhantomJS的使用

最近按公司要求,爬取相关网站时,发现没有找到js包的地址,我就采用selenium来爬取信息,相关实战链接:python爬虫实战(一)--------中国作物种质信息网一.Selenium介绍 Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试.换句话说叫 Selenium 支持这些浏览器驱动.Selenium支持

python爬虫----（1. 基本模块）

python爬虫,web spider.爬取网站获取网页数据,并进行分析提取. 基本模块使用的是 urllib,urllib2,re,等模块 (一)基本用法,例子 (1)进行基本GET请求,获取网页html #!coding=utf-8 import urllib import urllib2 url = 'http://www.baidu.com/' # 获取请求 request = urllib2.Request(url) try: # 根据request,得到返回response