爬虫基础知识一

认识HTTP、HTTPS

1.http:超文本传输协议

  • 以明文的形式传输
  • 效率更高,但是不安全

2.https:http+ssl(安全套接字层)

  • 传输之前数据先加密,之后解密获取内容
  • 效率低,但是安全

3.get请求和post请求的区别

  • get请求没有请求体,post有,get请求把数据放到url地址中;
  • post请求常用于登录注册,保密;
  • post请求携带的数据比get请求大、多,常用于传输大文本的时候。

4.http协议之请求

  • 1.请求行

    GET /8hr/page/1/ HTTP/1.1
  • 2.请求体
    • User-Agent:用户代理:对方服务器能够通过user_agent知道当前请求对方资源的是什么浏览器

      • 如果我们需要模拟手机版的浏览器发送请求,对应的就需要把user-agent改成手机版
    • Cookie:用户存储用户信息的,每次请求会被携带上发送给对方的浏览器
      • 要获取登录后才能访问的页面
      • 对方的服务器会通过cookie来判断我们是一个爬虫
    • Referer:当前网页的由来,一般是上一级url
  • 3.请求体
    • 携带数据
    • get请求没有
    • post请求有    

5.http协议之响应

  • 1.响应头

    • Set-Cookie:对方服务器通过该字段设置cookie到本地
  • 2.响应体
    • url地址对应的响应

原文地址:https://www.cnblogs.com/-chenxs/p/11415289.html

时间: 2024-11-10 14:44:36

爬虫基础知识一的相关文章

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的

【VB6】使用VB6创建和访问Dom树【爬虫基础知识 】

使用VB6创建和访问Dom树 关键字:VB,DOM,HTML,爬虫,IHTMLDocument 我们知道,在VB中一般大家会用WebBrowser来获取和操作dom对象. 但是,有这样一种情形,却让我们纠结不已: 我们需要做爬虫,然后爬虫不需要太高的效率,但是我们被复杂的正则表达式给弄的头晕眼花. 不知道何去何从. 今天,下定决心研究下html的解析,终于掌握了对IHTMLDocument等接口对象的使用. 源代码放在:http://www.extencent.com 具体的文章将会放在博客园以

Python爬虫基础知识入门一

一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器 投票神器 预测(

自学Python之四 爬虫基础知识储备

首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏   和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏览器浏览不是程序所为!归根到底就是我们通过程序访问网站得到html代码,然后分析html代码获取有效内容的过程.下面让我们从最简单的爬虫开始: 爬取一个页面源代码 在python中,抓取网页的库是ur

爬虫基础知识

1.安装 requests scrapy 豆瓣源         pip install -i 豆瓣源 包名  2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX 3.网页分类 静态网页 动态网页 webservice 4.爬虫的应用 搜索引擎 推荐引擎 机器学习的数据样本 金融等数据分析 等... 5.正则表达式 ^:(限定开头)        .:(一个字符)      * + {n}:(限定词)         

python 爬虫基础知识(继续补充)

学了这么久爬虫,今天整理一下相关知识点,还会继续更新 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法. HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层. SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障

第三章:爬虫基础知识回顾

第一节:技术选型,爬虫能做什么技术选型scrapy vs requests + beautifulsoup1. requests + beautifulsoup都是库,scrapy是框架2.scrapy框架中可以加入requests + beautifulsoup3.scrapy基于twisted,性能是最大的优势4.scrapy方便扩展,提供了很多内置的功能5.scrapy内置的css和xpath selector非常方便,beautifulsoup最大的缺点就是慢 网页分类常见类型的服务1.

爬虫基础知识五

数据提取方法一 利用json 数据交换格式,看起来像python类型(列表,字典)的字符串 使用json之前需要导入 import  json 哪里会返回json的数据 浏览器切换到手机版 抓包app json.loads 把json字符串转换为python类型 json.loads(json字符串) json.dumps 把python类型转化为json字符串(用于保存数据到文本中) json.dumps({}) json.dumps(ret,ensure_ascii=False,indent