揭秘String类型背后的故事——带你领略汇编语言魅力

字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。在程序设计中,字符串(string)为符号或数值的一个连续序列,如符号串(一串字符)或二进制数字串(一串二进制数字)。
String类型你一定不陌生,毕竟每一位coder都是从var str1 = “Hello World”过来的。
但它真的就只是如此吗?听我娓娓道来。
一、思考

在 Swift 开发使用字符串的过程中,你是否有思考过以下问题?

  • 1 个字符串变量占用多少内存?
  • 字符串 str1、str2 的底层存储有什么不同?

  • 如果对 str1、str2 进行拼接操作,str1、str2 的底层存储又会发生什么变化?

如果你能准确地回答以上问题,那说明对 Swift 字符串的底层存储机制还是比较了解的。

二、1 个字符串变量占用多少内存?

方法 1:MemoryLayout

首先,可以借助 Swift 自带的 MemoryLayout 来测试一下


方法 2:汇编

另外,我们也可以借助一个强有力的底层分析助手—汇编语言,来窥探一下 String 的底层存储

  • 实际上分析其他语法、系统库的底层,都可以借助汇编语言

    • 比如多态的原理、泛型的原理、Array 的底层、枚举的底层等等
  • 另外,不仅仅是 Swift,C、C++、OC 的底层分析,依然可以借助汇编语言
    • 毕竟你写的每一行有效代码,最终都是要转成机器指令(0 和 1)
    • 而机器指令是跟汇编指令一一对应的,每一条机器指令都能翻译成与之对应的汇编指令
    • 能读懂汇编指令,就相当于能读懂机器指令,知道 CPU 具体在干嘛(操作了什么寄存器,操作了哪块内存)
  • 本教程的代码是直接跑在 Mac 的命令行(CommandLineTools)项目上
    • 因此展示的汇编代码是基于 X64 的 AT&T 格式汇编,并非 iOS 真机设备的 ARM 汇编
    • 其实不同种类的汇编之间有极大的相似性,只是有些指令的叫法不一样

跟微软的 Visual Studio 一样,Xcode 也内置了非常方便的反汇编功能,可以轻松查看每一句代码对应的汇编指令,打开反汇编界面的步骤如下

  • 在某一行需要调试的代码打上断点(反汇编界面会在断点调试状态下显示出来)
  • 菜单:Debug > Debug Workflow > Always Show Disassembly
    • Assembly 译为汇编, Disassembly 译为反汇编
  • 运行程序,看到反汇编界面

如果你的反汇编经验十足,根据第 16、17 行的汇编就可以推敲出来,String 是占用 16 个字节

  • 因为它用了 rax、rdx 寄存器存放字符串 str 的内容,而 rax、rdx 都是 8 字节的

汇编的内容太多了,因为时间和篇幅关系,文章里并不会对每一句汇编指令进行详细地讲解,更多的是想说明汇编的重要性。

三、字符串的底层存储

窥探内存

此前我写了个可以窥探 Swift 变量内存的小工具:https://github.com/CoderMJLee/Mems

  • 现在用它来窥探下字符串的 16 字节里面,究竟存储着什么数据
  • Mems.memStr(ofVal:) 默认情况下按照 8 个字节一组来显示内存数据
  • 传递参数 alignment: .one 是按照 1 个字节一组来显示内存数据

字符 ‘0‘~‘9‘ 的 ASCII 值是 0x30~0x39,认真观察最初 str1 的 16 个字节数据,你发现了什么?

  • 它直接将所有字符的 ASCII 值存储在 str1 的 16 字节中
  • 最后 1 个字节 0xea 中的 0xa 就是字符的数量,也是共 10 个字符

拼接

可以发现,当对 str1 进行拼接 "ABCDE" 的时候

  • 它最终是将 "0123456789ABCDE"十五个字符的 ASCII 值都存储在了 str1 的 16 字节中
  • 最后 1 个字节 0xef 中的 0xf 就是字符的数量,也是共 15 个字符
  • 可以看得出来,目前 16 个字节已经存满了,那如果再拼接 1 个字符呢?

可以看到,str1 里面存储的数据发生了非常大的变化,每一个字符的 ASCII 值不见了,

  • 那里面的 16 字节具体是什么含义呢?
  • 所有字符(‘0‘~‘9‘、‘A‘ 到 ‘F‘)的 ASCII 值又存到哪去了呢?

其他情况

如果一开始初始化的时候(未拼接之前),字符串的内容就是超过 15 个字符呢?

相信你能猜到是这个结果

  • 这 16 个字节里面并没有出现任何一个字符的 ASCII 值
  • 而且这 16 个字节跟 第27行的str1 还是有所区别
    • 虽然它们的字符串内容都是"0123456789ABCDEF"

如果对 str2 进行拼接操作


不难发现:这时 str2 的 16 字节又发生了变化,跟 第27行的str1 是有点相似的

如何解决上述疑问?

上述的种种疑问,光看打印出来的内存数据是无法解决的,但是都可以利用【!!!汇编!!!】来解决,分析汇编指令,立马就得出结论,因为文章的篇幅有限,平时工作也比较忙,我把上述问题的详细剖析过程录制成了长达 2 个多小时的视频,有兴趣的朋友可以用 1.5~2 倍速度观看

  • 链接:https://pan.baidu.com/s/1AkS3K1ZKP8zyxhlhLRaBkA

    • 提取码:kzrk
  • 视频对于没有汇编基础的朋友来说,可能会有点难度,最好挑一个头脑清醒的时间去观看
  • 看完视频后,希望大家能够确切地感受到汇编语言的重要性,不要永远只停留在编写高级语言代码、沉迷于语法糖的层面。

    四、最后

最后想多说一句:汇编能给你带来的价值远远不止这篇文章所说的窥探字符串的底层,对你的程序生涯影响绝对是终生受益的。

汇编语言是最接近于机器语言的编程语言。如果说机器语言是计算机操作的本质,那么汇编语言就是最最接近本质的语言。汇编语言能够让你更好的理解高级语言,学会汇编后,你可以通过修改高级语言的代码来提高算法所不能提高的效率。

在编程领域,字符串虽然是所有编程语言中最重要的部分之一,但它也仅仅是这片领域的一隅。对程序员而言,唯有不断的探索学习更多技术,才能在这片领域中纵横遨游。

以上就是我的技术分享,感觉意犹未尽还想学的朋友,送福利了!!想获取更多技术提升秘籍,欢迎×××:×××,我在这里为你随时解答。这里有很多如 iOS、数据结构与算法等编程技巧的免费视频和学习资料。

原文地址:https://blog.51cto.com/14598441/2448943

时间: 2024-08-30 11:01:41

揭秘String类型背后的故事——带你领略汇编语言魅力的相关文章

C++实现string类型的大数相加(带小数)

近日,做了一道阿里给的大数相加的编程题.题目大意如下: 输入两个string类型的数,如12.223  11,判断输入字符串是否合法.合法则输出true以及相加结果(true 23.223),非法则输出false """". 期间几经修改,在判断合法方面排除了如.212以及122.这种错误(出现除数字以及.以外的错误亦已排除). 主要的思路是将小数与整数部分进行分离,分别相加.由于小数部分可能想整数部分进位,需要进行进位判断. 完整代码如下: #include &l

Mac OS X 背后的故事

Mac OS X 背后的故事 作者: 王越  来源: <程序员>  发布时间: 2013-01-22 10:55  阅读: 25840 次  推荐: 49   原文链接   [收藏] 作者王越,美国宾夕法尼亚大学计算机系研究生,中国著名 TeX 开发者,非著名 OpenFOAM 开发者. Mac OS X 背后的故事(一)力挽狂澜的Ellen Hancock Mac OS X 背后的故事(二)Linus Torvalds的短视 Mac OS X 背后的故事(三)Mach之父Avie Tevan

你好,C++(4)2.1.3 我的父亲母亲:编译器和链接器 2.1.4 C++程序执行背后的故事

2.1.3  我的父亲母亲:编译器和链接器 从表面上看,我是由Visual Studio创建的,而实际上,真正负责编译源代码创建生成可执行程序HelloWorld.exe的却是Visual Studio中集成的C++编译器cl.exe和链接器link.exe.他们二老,才是我的亲生爹妈. 为了便于人们的编写.阅读和维护,我们的源文件是使用C++这种人们可以理解的高级程序设计语言编写的.然而,计算机却并不理解这种高级语言,也就无法直接执行高级语言编写而成的源文件.所以,这里就需要一个翻译的工作,将

(转载)你好,C++(4)2.1.3 我的父亲母亲:编译器和链接器 2.1.4 C++程序执行背后的故事

你好,C++(4)2.1.3 我的父亲母亲:编译器和链接器 2.1.4 C++程序执行背后的故事 2.1.3  我的父亲母亲:编译器和链接器 从表面上看,我是由Visual Studio创建的,而实际上,真正负责编译源代码创建生成可执行程序HelloWorld.exe的却是Visual Studio中集成的C++编译器cl.exe和链接器link.exe.他们二老,才是我的亲生爹妈. 为了便于人们的编写.阅读和维护,我们的源文件是使用C++这种人们可以理解的高级程序设计语言编写的.然而,计算机却

jstl foreach标签格式化date,string类型数据

本文要说jsp中date类型格式化和string类型分割处理 首先说date数据格式化 1.jsp中给date类型数据格式化首先需要引入 <%@ taglib uri="http://java.sun.com/jsp/jstl/fmt" prefix="fmt" %> 如果后台带过来的数据是date类型,那就好办了,只要像下面这样用fmt标签就可以了,pattern定义时间的格式 <c:forEach items="${list}&quo

String类型,Function类型

1.String类型:  1)创建String对象:    var str=new String(s);    String(s);    参数:参数 s 是要存储在 String 对象中的值或转换成原始字符串的值.    返回值:当String()和运算符new一起作为构造函数使用时,它返回一个新创建的String对象,存放的是字符串s          当不用 new 运算符调用String()时,它只把 s 转换成原始的字符串,并返回转换后的值. 2)String对象属性:    leng

C++中关于string类型究竟能不能用cout输出的问题

先让我讲下故事哈 一次在MFC中用cout输出一个string类型字符串,编译时出现这样一个错误: error C2679: binary '<<' : no operator defined which takes a right-hand operand of type 'class std::basic_string<char,struct std::char_traits<char>,class std::allocator<char> >' (or

联想手机#P1来了#P1背后的故事系列

http://bbs.lenovo.com/forum.php?mod=viewthread&fid=928&tid=560992&extra=page%3D1 本帖最后由 奔在旅途的小草 于 2015-8-28 15:48 编辑 P1发布在即研发.产品经理.项目经理大大们呕心沥血一款牛逼的产品即将面世 你是否想了解更多P1背后的故事呢?你想知道为什么电池是5000毫安而不是6000毫安呢?你是否想知道P1命名的由来? 小草故事精粹将跟大家分享——P1背后的故事做客嘉宾:@做机的A

java动手动脑和课后实验型问题String类型

1.请运行以下示例代码StringPool.java,查看其输出结果.如何解释这样的输出结果?从中你能总结出什么? true true false 总结: 使用new关键字创建字符串对象时, 每次申请新开辟一个地址空间,存储的地址空间不一样(对象不同),string类型下hello是同一个对象,其内容和地址都相容. 2. public class StringEquals { /** * @param args the command line arguments */ public stati