HTML 中的字符集、ASCII、 ISO-8859-1、符号之间的关系和 HTML URL 编码注意的事项

一、HTML 实体

1.什么是HTML 实体?

在 HTMl 中,某些字符是保留的。小于号 (<) 和 大于号 (>), 浏览器会误认为是标签

如果希望正确地显示预留字符,必须在 HTML 源代码中使用字符实体(HTML entities).

2.字符实体类

&entity_name 或者 &#entity_number;

提示:
使用实体名而不是数字的好处是,名字易于记忆。
不过坏处,浏览器也许并不支持所有实体名称(对实体数字的支持却很好)

3.不间断空格(non-breaking space)

4.HTML 中的常用字符实体体是不间断空格(&nbsp)

5.HTML 中有用的字符实体

详细地址:http://www.w3school.com.cn/html/html_entities.asp

二、HTMl 字符集

如果正确地显示 HTML 页面,浏览器必须知道使用何种字符集。

1.万维网早起使用的字符集是 ASCII。 ASCII 支持 0-9 的数字,大写和小写英文字母,以及一些特殊字符。

由于很多国际使用的字符并不属于 ASCII,现代浏览器的默认字符集是 ISO-8859-1;

如果网页使用不同于 ISO-8859-1 的字符,就应该在 <meta> 标签进行指定。

2.ISO 字符集
   ISO 字符集是国际标准组织(ISO) 针对不同的字母表/语言定义的标准字符集。

3.Unicode 标准   

Unicode 的出现就是解决,由于上面列出的字符集都有容量限制,而且不兼容多语言环境,Unicode 联盟开发了 Unicode 标准

Unicode 标准涵盖了世界上的所有字符、标点和符号。不论是何种平台、程序或者语言,Unicode 都能够进行文本数据的处理、存储和交换。

Unicode 可以被不同的字符集兼容。最常用的编码方式是 UTF-8 和 UTF=16.

UTF-8 中的字符可以使 1-4 个字节长。 UTF-8 可以表示 Unicode 标准中的任意字符。 UTF-8 向后兼容 ASCII.

UTF-8 是网页和电子邮箱常用的编码。

注意:所有 HTML 4 处理器均已支持 UTF-8,而所有 XHTML 和 XML 处理器支持 UTF-8 和 UTF-16

三、HTML ASCII

HTML 和 XHTML 用标准的 7 比特 ASCII 代码在网络上传输数据。
7 比特 ASCII 代码可以提供 128 个不同的字符值。

四、HTML ISO-88591

HTML 4.01 支持 ISO 8859-1 字符集

ISO 8859-1 的较低部分(从 1 到 127 之间的代码)是最初的 7 比特 ASCII;

ISO 8859-1 的较高部分(从 160 到 255 之间的代码)全部有实体名称。

这些符号中的大多数可以在不进行实体引用的情况下使用,但是实体名称或者实体比编号为那些不容易通过键盘输入的符号提供了表达的方法。

五、HTML 4.01 符号实体

包括了数学符号、希腊字符、各种箭头符号、科技符号以及形状

六、HTMl URL 编码

url 编码形式表示的是 ASCII 字符(十六进制格式)
十六进制格式用于在浏览器和插件中显示非标准的字母和字符。

URL 编码会将字符转换为可通过因特网传输的格式。

URL 统一资源定位器
WEb 浏览器通过 URL 从 web 服务器请求页面

URL 编码
URL 只能使用 ASCII 字符集 来通过因特网进行发送。

由于 URL 常常会包含 ASCII 集合之外的字符, URL 必须转换为有效的 ASCII 格式.

URL 编码使用 %其后跟随两位的 十六进制来代替非 ASCII 字符。

URL 不能包含空格,URL 编码通常使用 "+" 来替换空格。

参考资料:

http://www.oschina.net/translate/what-every-web-developer-must-know-about-url-encoding#Thereservedcharactersarenotwhatyouthinktheyare
http://www.w3schools.com/html/html_entities.asp
http://www.w3school.com.cn/tags/html_ref_language_codes.asp
http://www.w3school.com.cn/html/html_entities.asp
http://en.wikipedia.org/wiki/Percent-encoding
http://blog.csdn.net/wusuopubupt/article/details/8817826
http://blog.163.com/chenzhenhua_007/blog/static/12849264920108119449881/
http://www.qianxingzhem.com/post-1989.html
http://unicode-table.com/en/#cherokee

总结:对 HTMl 基础背景、标准有了初步的了解,还需要在深入的学习。

时间: 2024-08-30 00:03:48

HTML 中的字符集、ASCII、 ISO-8859-1、符号之间的关系和 HTML URL 编码注意的事项的相关文章

Git 工作区、版本库中的暂存区和版本库之间的关系

下图展示了 工作区.版本库中的暂存区和版本库之间的关系: 1. 理解 Git 暂存区 (stage) 在版本库 .git 目录下有一个 index 文件,下面针对这个文件做一个有趣的试验.要说明的是:这个试验用 1.7.3 版本的 Git 进行的,低版本的 Git 因为没有针对 git status 命令进行优化设计,需要运行 git diff 命令才能看到 index 文件的日期戳变化,具体操作步骤如下. (1) 首先执行 git checkout 命令(后面会介绍此命令),撤销工作区中 we

Linux中的文件描述符与打开文件之间的关系

1. 概述 在Linux系统中一切皆可以看成是文件,文件又可分为:普通文件.目录文件.链接文件和设备文件.文件描述符(file descriptor)是内核为了高效管理已被打开的文件所创建的索引,其是一个非负整数(通常是小整数),用于指代被打开的文件,所有执行I/O操作的系统调用都通过文件描述符.程序刚刚启动的时候,0是标准输入,1是标准输出,2是标准错误.如果此时去打开一个新的文件,它的文件描述符会是3.POSIX标准要求每次打开文件时(含socket)必须使用当前进程中最小可用的文件描述符号

Unity3D 中 Generic 动画导入设置和 Root Motion 之间的关系

2条评论 Unity3D 的 Mecanim 动画系统可以直接复用 3DS MAX 中制作的动画文件中的位移,这个就是通过 applyRootMotion 来达成的,我们只需要在使用 Animator 控制动画播放的同时,设置 Animator 的 applyRootMotion 字段为 True 就 OK 了. 那么怎么来利用这个特性达成我们想要的一些效果呢?这个 applyRootMotion 到底指的是啥呢? ApplyRootMotion,从字面上理解来看,是『应用根节点的运动』,听起来

每天进步一点点——Linux中的文件描述符与打开文件之间的关系

转载请说明出处:http://blog.csdn.net/cywosp/article/details/38965239 1. 概述 在Linux系统中一切皆可以看成是文件,文件又可分为:普通文件.目录文件.链接文件和设备文件.文件描述符(file descriptor)是内核为了高效管理已被打开的文件所创建的索引,其是一个非负整数(通常是小整数),用于指代被打开的文件,所有执行I/O操作的系统调用都通过文件描述符.程序刚刚启动的时候,0是标准输入,1是标准输出,2是标准错误.如果此时去打开一个

全网最通俗易懂理清mybatis中SqlSession、SqlSessionTemplate、SessionFactory和SqlSessionFactoryBean之间的关系

摘自:https://www.cnblogs.com/xiaoming0601/p/12166160.html 我潇洒的灰大狼又回来啦.今天送大家的一句话是: 保持耐心,永远年轻,永远热泪盈眶. 前言 先容我哭一会儿,呜呜呜~昨晚写了一半的文章,还没保存就盖上盖子准备回家,拔下电源准备把电脑塞进书包带回家完成时,懒惰阻止了我,最终还是没带回家,于是,遭报应了,今天早上来,电脑直接就是没电关机了,开机后写的文章再也找不回来了...(不争气的mac真是对不起我前面特地写了一篇文章来夸赞mac真香啊.

【编码】彻底弄懂ASCII、Unicode、UTF-8之间的关系

计算机中的所有字符,说到底都是用二进制的0.1的排列组合来表示的,因此就需要有一个规范,来枚举规定每个字符对应哪个0.1的排列组合,这样的规范就是字符集. ASCII 全称是“美国信息交换标准码”(American Standard Code for Information Interchange),制定于20世纪60年代,这套规范规定了128个字符对应的二进制码.128=27,即只需要7个bit就能完全表示,因此每个ASCII码只需占用1个字节(1Byte = 8bit). 例如,大写字母A对

数据库中char、varchar、varchar2、nvarchar之间的关系

符串“abc",对于CHAR (20),表示你存储的字符将占20个字节(包括17个空字符),而同样的VARCHAR2 (20)则只占用3个字节的长度,20只是最大值,当你存储的字符小于20时,按实际长度存储. oracle中,会有一个varchar2型的数据类型,varchar2型与varchar型的区别: 1.varchar2把所有字符都占两字节处理(一般情况下),varchar只对汉字和全角等字符占两字节,数字,英文字符等都是一个字节:2.VARCHAR2把空串等同于null处理,而varc

Android面试题 请解释下单线程模型中Message、Handler、MessageQueue、Looper之间的关系

简单的说,Handler获取当前线程中的looper对象,looper用来存放从MessageQueue中取出的Message,再由Handler进行Message分发和处理,按照先进先出执行. MessageQueue(消息队列):用来存放通过Handler发送的消息,通常附属于某一个创建它的线程,可以通过Looper.myQueue()得到当前线程的消息队列. Handler:是Message的主要处理者,负责Message的发送,Message内容的执行处理.例如将消息发送到消息队列(se

单线程模型中Message、Handler、MessageQueue、Looper之间的关系

Handler简介: 一个Handler允许你发送和处理Message和Runable对象,这些对象和一个线程的MessageQueue相关联.每一个线程实例和一个单独的线程以及该线程的MessageQueue相关联.当你创建一个新的Handler时,它就和创建它的线程绑定在一起了.这里,线程我们也可以理解为线程的MessageQueue.从这一点上来看,Handler把Message和Runable对象传递给MessageQueue,而且在这些对象离开MessageQueue时,Handler