Python爬虫知识点——URL与URI

URL与URI

  • URL全称:Uniform Resource Locator(统一资源定位符)
  • URI全称:Uniform Resource Identifier(统一资源标识符)

    如https://github.com/favicon.ico为例,它既是一个URL又是一个URI。我们通过URL/URI唯一指定了它的访问方式。其中包括访问协议https、访问路径、资源名称favicon.ico。通过这个链接提供的消息,我们就可以直接访问到此资源所在的位置。这便是URL、URI的作用。

    URL是URI的子集。===>每个URL都是URI,但不是每个URI都是URL。

    URI包括两个子类:URN和URL。其中URN只命名资源但不指定如何定位资源(如urn:isbn:0451450523)指定了一本书的ISBN,可以唯一标识,但未定位

    ▲.目前互联网中URN用得很少,几乎所有的URI都是URL。

原文地址:https://www.cnblogs.com/nymrli/p/9387726.html

时间: 2024-10-19 13:58:33

Python爬虫知识点——URL与URI的相关文章

Python 爬虫知识点 - 淘宝商品检索结果抓包分析(续)

通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1481814489094_902&callback=jsonp903&q=Python%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0&imgfile=&js=1&stats_click=search_radio_all%3A1&i

Python爬虫知识点四--scrapy框架

一.scrapy结构数据 解释: 1.名词解析: o??引擎(Scrapy Engine)o??调度器(Scheduler)o??下载器(Downloader)o??蜘蛛(Spiders)o??项目管道(Item Pipeline)o??下载器中间件(Downloader Middlewares)o??蜘蛛中间件(Spider Middlewares)o??调度中间件(Scheduler Middlewares) 2.具体解析 绿线是数据流向??从初始URL开始,Scheduler会将其交给Do

python爬虫之url中的中文问题

在python的爬虫学习中,我们的url经常出现中文的问题,我们想要访问的url就需要对url进行拼接,变成浏览器可以识别的url在python中已经有了这样的模块了,这就是urlencodeurlencode需要对中文和关键字组成一对字典,然后解析成我们的url 在python2中是urllib.urlencode(keyword)在Python中是urllib.parse.urlencode(keyword) 查看一下代码:python2 import urllib import urlli

Python爬虫知识点梳理

学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明确目标,所以,在你准备学爬虫前,先问问自己为什么要学习爬虫.有些人是为了一份工作,有些人是为了好玩,也有些人是为了实现某个黑科技功能.不过 肯定的是,学会了爬虫,能给你的工作提供很多便利. 作为零基础小白,大体上可分为三个阶段去实现,第一阶段是入门,掌握必备基础知识,比如Python基础.网络请求的基本原理等,第二阶段是模仿,跟着别人的爬虫代码学,弄懂每一行代码,熟悉主流的爬虫工具,

Python 爬虫知识点 - 淘宝商品检索结果抓包分析(续二)

一.URL分析 通过对“Python机器学习”结果抓包分析,有两个无规律的参数:_ksTS和callback.通过构建如下URL可以获得目标关键词的检索结果,如下所示: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stat

Python爬虫知识点——请求

请求 :请求方法.请求网址.请求头.请求体 请求方法: 常见的为:GET.POST GET与POST主要区别: GET请求参数包含在URL,可从URL中看出.POST请求的URL不包含参数,都是通过表单的形式传输的,包含在请求体中 GET请求提交的数据最多只有1024字节,POST无限制 其他还有HEAD.PUT.DELETE.CONNECT.OPTIONS.TRACE 请求的网址: 即URL,我们想要请求的资源 请求头: 用来说明服务器要使用的附加信息,比较总要的有Cookie.Referer

Python爬虫知识点——响应

响应: 响应状态码.响应头.响应体 响应状态码: **表2-3常见的错误代码及错误原因** 状态码 说明 详情 100 继续 请求者应当继续提出请求.服务器返回此代码表示已收到请求的第一部分,正在等待其余部分. 101 切换协议 请求者已要求服务器切换协议,服务器已确认并准备切换. 200 成功 服务器已成功处理了请求.通常,这表示服务器提供了请求的网页. 201 已创建 请求成功并且服务器创建了新的资源. 202 已接受 服务器已接受请求,但尚未处理. 203 非授权信息 服务器已成功处理了请

python爬虫知识点三--解析豆瓣top250数据

一.利用cookie访问import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'} cookies = {'cookie': 'bid=a3MhK2YEpZw; ll="108296"; ps=y; ue="[email prote

Python爬虫知识点——Chrome开发者工具Network

Chrome开发者工具中Network功能介绍 第一列Name:请求的名称,一般会将URL的最后一 部分内容当作名称. 第二列Status: 响应的状态码,这里显示为200,代表响应是正常的.通过状态码,我们可   以判断发送了请求之后是否得到了正常的响应. 第三列Type: 请求的文档类型.这里为document, 代表我们这次请求的是一个HTML文档,内容就是一些HTML代码. 第四列initiator: 请求源.用来标记请求是由哪个对象或进程发起的. 第五列Size: 从服务器下载的文件和