Python:代码单元、代码点介绍

转于https://www.cnblogs.com/runwulingsheng/p/5106078.html

博主你是那天边突然划过的一道闪电

代码点:指编码表(比如Unicode)中某个字符的代码值(数字),书写时前面加U+,比如U+0041是字母A的代码点

代码单元:指表示编码表字符的最小存储单元,用16位表示

Unicode 代码点 U+0041 U+00DF U+6771 U+10400
表示字形
UTF-32 代码单元
00000041
000000DF
00006771
00010400
UTF-16 代码单元
0041
00DF
6771
D801 DC00
UTF-8 代码单元
41
C3 9F
E6 9D B1
F0 90 90 80

增补字符,用两个代码单元表示的字符

网摘:

代码点(Code Point):指Unicode中为字符分配的编号,一个字符只占一个代码点;

例如:我们说到字符“汉”,它的代码点是U+6C49;

代码单元(Code Unit):是针对编码方法而言,它指的是编码方法中对一个字符编码以后所占的最小存储单元;

例如:UTF-8中,代码单元是一个字节,因为一个字符可以被编码为1个,2个或者3个4个字节;在UTF-16中,代码单元变成了两个字节(就是一个char),因为一个字符可以被编码为1个或2个char(你找不到比一个char还小的UTF-16编码的字符,嘿嘿)。

#一个字符,仅仅对应一个代码点,但却可能有多个代码单元(即可能被编码为2个char)

#以上概念绝非学术化的绕口令,这意味着当你想以一种统一的方式指定自己使用什么字符的时候,使用代码点(即你告诉你的程序,你要用Unicode中的第几个字符)总是比使用代码单元更好(因为这样做的话你还得区分情况,有时候提供一个16进制数字,有时候要提供两个)。"

例:

想找到第i个代码点,使用下列语句

int index = greeting.offsetByCodePoints(0,i);  //得到0开始便宜i个代码点的索引值(数字)

int cp = greeting.codePointAt(index);  // 返回char值(unicode对应数字)

原文地址:https://www.cnblogs.com/volcao/p/8794732.html

时间: 2024-10-04 22:57:42

Python:代码单元、代码点介绍的相关文章

机器学习系列(9)_机器学习算法一览(附Python和R代码)

本文资源翻译@酒酒Angie:伊利诺伊大学香槟分校统计学同学,大四在读,即将开始计算机的研究生学习.希望认识更多喜欢大数据和机器学习的朋友,互相交流学习. 内容校正调整:寒小阳 && 龙心尘 时间:2016年4月 出处:http://blog.csdn.net/han_xiaoyang/article/details/51191386 http://blog.csdn.net/longxinchen_ml/article/details/51192086 声明:版权所有,转载请联系作者并注

Java中代码点与代码单元(转)

摘要 本文介绍 Java 平台支持增补字符的方式.增补字符是 Unicode 标准中代码点超出 U+FFFF 的字符,因此它们无法在 Java 编程语言中描述为单个的 16 位实体(例如char数据类型).这些字符一般极少用,但是,有些会在诸如中文或日文人名中用到,因此,在东亚国家,政府应用程序通常会要求支持这些字符. Java 平台目前正在改进,以便支持对增补字符的处理,这种改进对现有的应用程序影响微乎其微.新的低层 API 在需要时能够使用单个的字符运行.不过,大多数文本处理 API 均使用

代码点,代码单元

引自:http://blog.csdn.net/weizhaozhe/article/details/3909079 摘要 本文介绍 Java 平台支持增补字符的方式.增补字符是 Unicode 标准中代码点超出 U+FFFF 的字符,因此它们无法在 Java 编程语言中描述为单个的 16 位实体(例如char数据类型).这些字符一般极少用,但是,有些会在诸如中文或日文人名中用到,因此,在东亚国家,政府应用程序通常会要求支持这些字符. Java 平台目前正在改进,以便支持对增补字符的处理,这种改

<转>机器学习系列(9)_机器学习算法一览(附Python和R代码)

转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习. – 埃里克 施密特(谷歌首席执行官) 当计算从大型计算机转移至个人电脑再转移到云的今天,我们可能正处于人类历史上最关键的时期.之所以关键,并不是因为已经取得的成就,而是未来几年里我们即将要获得的进步和成就. 对我来说,如今最令我激动的就是计算技术和工具的普及,从而带

Python challenge通关代码及攻略(9-16)

第九题 题目分析 图片上和上一题一样.有奇怪的黑点点.此题应该考察的与上题相同也是图像解析类的. 查看源码. 页面上可以下载good.jpg.然后提示first+second=? 然后first和second各对应一系列的数字.那么应该是两个数字加起来,代表一个像素点. 如果我们在原图片上涂黑点,那么看不出什么变化.于是我们新建一个白底图片,再这个上面涂黑点. 考察知识点 Python-Image 基本的图像处理操作(赞) http://www.aichengxu.com/view/39904

机器学习算法的基本知识(使用Python和R代码)

本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法展开去做一些实际问题. Google的自驾车和机器人得到了很多新闻,但公司的真正未来是机器学习,这种技术使计算机变得更智能,更个性化.-Eric Schmidt (Google Chairman) 我们可能生活在人类历史上最具影响力的时期--计算从大型主机到PC移动到云计算的时期. 但是使这段时期有

教你阅读Python开源项目代码

为什么要阅读开源代码 阅读 Python 开源项目代码主要有如下三个原因: 在工作过程中遇到一些问题 Google 和 StackOverFlow 等网站找不到解决办法,只能去翻源码. 对某些项目或者方向非常感兴趣,希望深入. 学习遇到瓶颈需要汲取开源项目的经验和用法来做提高.注意:很多人学Python过程中会遇到各种烦恼问题没有人帮答疑.为此小编建了个Python全栈免费答疑交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿

关于Java代码点和代码单元

java char类型是16位的(UTF-16编码),它不能满足所有unicode字符的编码,java代码点是指某个字符对应的unicode编码值,如A字符的unicode代码点就为u+0041.代码点的数量其实也就是unicode字符的数量. 每个char变量其实就是一个代码单元,一个字符一般对应一个代码单元或者多个代码单元. 字符串的length方法返回的是代码单元的数量(注意,不是字符数量),而codePointCount方法返回则是代码点的数量,也就是unicode字符数量. 在编译ja

Java Core 学习笔记——3.char/Unicode/代码点/代码单元

通用字符集(UCS) UCS是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所制定的标准字符集. UCS包括了其他所有的字符集(包含了已知语言的所以字符). ISO/IEC 10646定义了一个31位的字符集(首位恒定为0,占用4字节). Unicode(万国码.国际码.统一码.单一码) 编码方式: Unicode编码空间从“U+0000”到“U+10FFFF”(共1112064个码位),Unicode的编码空间划为17个平面,每个平面包含216(65536)个码位.17