1、HTTP——超文本传输协议,是一种可靠的数据传输协议。
2、资源:Web资源是Web内容的源头。最简单的资源是Web服务器上的静态文件,包含文本文件、HTML文件、图片、视频等。但资源不一定是静态文件,还可以是根据需要生成内容的软件程序。这些动态内容资源可以根据所请求的信息,身份,每天的不同时段来产生内容。
3、媒体类型:HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签。MIME是一种文本标记,表示一种主要的对象类型和一个特定的子类型,中间用一条斜杠分割。例如:text/html表示HTML格式的文本文档;text/plain表示普通的文件;image/jpeg表示JPEG格式图片。。。
4、URI:统一资源标识符。包含URL和URN。统一资源定位符(URL)描述了一台特定服务器上某资源的位置。统一资源名(URN)作为特定内容的唯一名称使用,与资源所在地无关。
5、事务:一条HTTP事务由一条从客户端发往服务器的请求命令和一个从服务器发挥库乎端的响应结果组成,这种通信通过HTTP报文进行传输。
6、报文:HTTP报文都是纯文本,不是二进制代码。包括起始行、首部字段和主体(主体可以包含任何的二进制数据)
7、Web的结构组件:
代理:位于客户端和服务器之间的HTTP中间实体,接受客户端的HTTP请求并将请求转发给服务器
缓存:HTTP的仓库,使常用页面的副本保存在离客户端更近的地方。
网关:连接其他应用程序的特殊Web服务器。通常用于将HTTP流量转换成其他的协议。网关接受请求时就好像自己是资源的源端服务器一样。客户端可能并不知道自己正在与一个网关进行通信。
隧道:对HTTP通信报文进行盲转发的特殊代理。通常用来在一条或多条HTTP连接上转发非HTTP,转发时不会窥探数据。HTTP隧道的一种常见用途是通过HTTP连接承载加密的SSL流量,这样SSL流量就可以穿过只允许Web流量通过的防火墙了。
Agent代理:是代表用户发起HTTP请求的客户端程序。所有发布Web请求的应用程序都是HTTP Agent代理。包括Web浏览器,还有在无人监视的情况下发布HTTP事务并获取内容的“爬虫“等。