通过汇编揭开String中数据结构神秘面纱

String(字符串),是编程语言中表示文本的数据类型。接触编程的你一定每天都会见到。那看似渺小的string(字符串),里面到底还隐藏着多少的秘密?大家平时天天使用的东西,你真的了解它吗?可能平时很多人并不会深入研究它,如果你的能力还不错,不妨看看下面几个问题。要是对他们还存在困惑,那恭喜你,你找到了你要提升的方向。
一、思考

在 Swift 开发使用字符串的过程中,你是否有思考过以下问题?

  • 1 个字符串变量占用多少内存?
  • 字符串 str1、str2 的底层存储有什么不同?

  • 如果对 str1、str2 进行拼接操作,str1、str2 的底层存储又会发生什么变化?


如果你能准确地回答以上问题,那说明对 Swift 字符串的底层存储机制还是比较了解的。

二、1 个字符串变量占用多少内存?

方法 1:MemoryLayout

首先,可以借助 Swift 自带的 MemoryLayout 来测试一下


方法 2:汇编

另外,我们也可以借助一个强有力的底层分析助手—汇编语言,来窥探一下 String 的底层存储

  • 实际上分析其他语法、系统库的底层,都可以借助汇编语言

    • 比如多态的原理、泛型的原理、Array 的底层、枚举的底层等等
  • 另外,不仅仅是 Swift,C、C++、OC 的底层分析,依然可以借助汇编语言
    • 毕竟你写的每一行有效代码,最终都是要转成机器指令(0 和 1)
    • 而机器指令是跟汇编指令一一对应的,每一条机器指令都能翻译成与之对应的汇编指令
    • 能读懂汇编指令,就相当于能读懂机器指令,知道 CPU 具体在干嘛(操作了什么寄存器,操作了哪块内存)
  • 本教程的代码是直接跑在 Mac 的命令行(CommandLineTools)项目上
    • 因此展示的汇编代码是基于 X64 的 AT&T 格式汇编,并非 iOS 真机设备的 ARM 汇编
    • 其实不同种类的汇编之间有极大的相似性,只是有些指令的叫法不一样

跟微软的 Visual Studio 一样,Xcode 也内置了非常方便的反汇编功能,可以轻松查看每一句代码对应的汇编指令,打开反汇编界面的步骤如下

  • 在某一行需要调试的代码打上断点(反汇编界面会在断点调试状态下显示出来)
  • 菜单:Debug > Debug Workflow > Always Show Disassembly
    • Assembly 译为汇编, Disassembly 译为反汇编
  • 运行程序,看到反汇编界面

如果你的反汇编经验十足,根据第 16、17 行的汇编就可以推敲出来,String 是占用 16 个字节

  • 因为它用了 rax、rdx 寄存器存放字符串 str 的内容,而 rax、rdx 都是 8 字节的

汇编的内容太多了,因为时间和篇幅关系,文章里并不会对每一句汇编指令进行详细地讲解,更多的是想说明汇编的重要性。

三、字符串的底层存储

窥探内存

此前我写了个可以窥探 Swift 变量内存的小工具:https://github.com/CoderMJLee/Mems

  • 现在用它来窥探下字符串的 16 字节里面,究竟存储着什么数据
  • Mems.memStr(ofVal:) 默认情况下按照 8 个字节一组来显示内存数据
  • 传递参数 alignment: .one 是按照 1 个字节一组来显示内存数据

字符 ‘0‘~‘9‘ 的 ASCII 值是 0x30~0x39,认真观察最初 str1 的 16 个字节数据,你发现了什么?

  • 它直接将所有字符的 ASCII 值存储在 str1 的 16 字节中
  • 最后 1 个字节 0xea 中的 0xa 就是字符的数量,也是共 10 个字符

拼接


可以发现,当对 str1 进行拼接 "ABCDE" 的时候

  • 它最终是将 "0123456789ABCDE"十五个字符的 ASCII 值都存储在了 str1 的 16 字节中
  • 最后 1 个字节 0xef 中的 0xf 就是字符的数量,也是共 15 个字符
  • 可以看得出来,目前 16 个字节已经存满了,那如果再拼接 1 个字符呢?

可以看到,str1 里面存储的数据发生了非常大的变化,每一个字符的 ASCII 值不见了,

  • 那里面的 16 字节具体是什么含义呢?
  • 所有字符(‘0‘~‘9‘、‘A‘ 到 ‘F‘)的 ASCII 值又存到哪去了呢?

其他情况

如果一开始初始化的时候(未拼接之前),字符串的内容就是超过 15 个字符呢?

相信你能猜到是这个结果

  • 这 16 个字节里面并没有出现任何一个字符的 ASCII 值
  • 而且这 16 个字节跟 第27行的str1 还是有所区别
    • 虽然它们的字符串内容都是"0123456789ABCDEF"

如果对 str2 进行拼接操作

不难发现:这时 str2 的 16 字节又发生了变化,跟 第27行的str1 是有点相似的

如何解决上述疑问?

上述的种种疑问,光看打印出来的内存数据是无法解决的,但是都可以利用【!!!汇编!!!】来解决,分析汇编指令,立马就得出结论,因为文章的篇幅有限,平时工作也比较忙,我把上述问题的详细剖析过程录制成了长达 2 个多小时的视频,有兴趣的朋友可以用 1.5~2 倍速度观看

  • 链接:https://pan.baidu.com/s/1AkS3K1ZKP8zyxhlhLRaBkA

    • 提取码:kzrk
  • 视频对于没有汇编基础的朋友来说,可能会有点难度,最好挑一个头脑清醒的时间去观看
  • 看完视频后,希望大家能够确切地感受到汇编语言的重要性,不要永远只停留在编写高级语言代码、沉迷于语法糖的层面。

    四、最后
    可能有人会说,我现在不需要接触这些,也能够完成工作。没错,如果你只是安于现状,大可不必多费精力折磨自己。但是,如果你想提升自己能力,突破自我,汇编完全可以助你在编程领域更上一层楼,绝对是你在突破自我道路上的一把利器。不过,如今的软件技术发展迅猛,不提升自己,就会落后。技术落后和技术不精的开发者,是一定会被市场所淘汰。高端的编程人员才是企业真正争夺的香饽饽,唯有不断的探索学习更多技术,才能在这?领域中站稳脚跟。总之,你自己决定你会成为哪一类人,你的高度也由你自己决定。
    听到这里,如果你对汇编、数据结构与算法等编程技巧愈发感兴趣,欢迎你加?我们的大家庭,×××:×××。在这?你可以得到和IT界名师一对一交流的机会。让我们共同进步,起航扬帆。

原文地址:https://blog.51cto.com/13007966/2449092

时间: 2024-07-30 14:40:50

通过汇编揭开String中数据结构神秘面纱的相关文章

揭开webRTC媒体服务器的神秘面纱——WebRTC媒体服务器&开源项目介绍

揭开webRTC媒体服务器的神秘面纱--WebRTC媒体服务器&开源项目介绍 WebRTC生态系统是非常庞大的.当我第一次尝试理解WebRTC时,网络资源之多让人难以置信.本文针对webRTC媒体服务器和相关的开源项目(如kurento,janus,jitsi.org等)做一些介绍.并且将尝试降低理解WebRTC的业务价值所需要的技术门槛. 何为WebRTC服务器? 自从WebRTC诞生之初以来,该技术的主要卖点之一是它可以进行点对点(browser-to-browser)通信,而几乎不需要服务

黑客是什么?揭开郭盛华的神秘面纱,讲解他不为人知传奇故事

今天小编给大家揭开白帽黑客.知名网络安全专家.东方联盟创始人郭盛华的神秘面纱和他不为人知的传奇故事.他不但电脑技术高超,还很爱国.直到今天,郭盛华品格的形成仍具有强大的影响力. 那么黑客到底是指什么?黑客技术.编写计算机代码的艺术和操纵计算机硬件一直是男人们在这个领域中的最高位置,这就是为什么许多年轻人向往的职业. 作为一个出身卑微的人,郭盛华没有任何贵族社会的条件.他唯一可以倚仗的只是自己出类拔萃的扭转不利局面的才华,这是一个网络专家和企业家必备的素质.正是关键时的一次心灵燃烧使他赢得了别人包

揭开观察者设计模式的神秘面纱,手把手教你写监听器

我们在写代码的时候,遇到最常用的就是监听器了.那么实际中,我们也要进行事件的监听.而有些事件是业务逻辑需要实现的,跟随事物变化动态变化的.假如说我们要实现一个事件,有位置的监听,有颜色的监听,有坐标的监听,有速度的监听,那么这么多监听的事件.那么我们就需要这么多个监听器.这些监听器如何被管理呢.我们可以创造一个类似管理员身份的神秘角色,这个角色就是一个监听器池说一个监听器池,可以移除和增加监听器.当我们触发某一事件的时候,需要这些监听器全部执行监听. 现在我们来模拟一下按钮Button的实现.

揭开CSS中BFC的面纱

引言: 这篇文章是我对BFC的理解及总结,带你揭开BFC的面纱.你将会知道BFC是什么,形成BFC的条件,BFC的相关特性,以及他的实际应用. 一.何为BFC BFC(Block Formatting Context)格式化上下文,是Web页面中盒模型布局的CSS渲染模式,指一个独立的渲染区域或者说是一个隔离的独立容器. 二.形成BFC的条件 1.浮动元素,float 除 none 以外的值:       2.定位元素,position(absolute,fixed):       3.disp

揭开Java 泛型类型擦除神秘面纱

泛型,一个孤独的守门者. 大家可能会有疑问,我为什么叫做泛型是一个守门者.这其实是我个人的看法而已,我的意思是说泛型没有其看起来那么深不可测,它并不神秘与神奇.泛型是 Java 中一个很小巧的概念,但同时也是一个很容易让人迷惑的知识点,它让人迷惑的地方在于它的许多表现有点违反直觉. 文章开始的地方,先给大家奉上一道经典的测试题. List<String> l1 = new ArrayList<String>();List<Integer> l2 = new ArrayL

微软“小冰”网络机器人揭开了人工智能的神秘面纱

对国人而言,人工智能是很神秘的东西.现在,微软利用多年积累的相关技术,从人脑思维活动中提取"纯粹智能",然后再赋予网络机器人"小冰",使其在互联网上"撒欢儿",热闹非凡.为什么? 大家知道,在微软"必应"搜索中,有一项"网典"选项,类似维基网站,积累了一个庞大的知识库.说实话,这个知识库是7亿中国网民的真实智慧的结晶,不属于任何个人.问题是,对于这个巨大无比的知识库,怎么"提纯"处理(大

揭开消息中间件RabbitMQ的神秘面纱

当你看到这篇博文的时候,相信你至少已经知道RabbitMQ 是一个非常优秀的消息中间件,它使用专门处理高并发的Erlang 语言编写而成的消息中间件产品. 本文我们将重点学习消息队列,消息中间件的概念,以及如何在Windows 上安装RabbitMQ并使用它发送一个消息 为了更好地学习RabbitMQ还是先来看看一些专业平台是如何解释它的吧. 1. 关于RabbitMQ的解释 RabbitMQ是部署最广泛的开源消息代理. RabbitMQ在全球范围内在小型初创公司和大型企业进行了超过35,000

静态分析揭开Joanap木马的神秘面纱

近期,出于对索尼电影的崇拜之心,本打算分析分析当年入侵索尼,造成索尼数十仇美金损失的木马样本,找到赛门铁克家报的名字为"Backdoor.Destover"的样本, Destover家族可是公开的当年攻击索尼影业的样本家族名字,谁知天不遂人意,发现我找到这个样本并不是传说中的Backdoor.Destover家族成员,而是更类似于微软报的Joanap家族木马,在网上对Joanap家族的木马的分析也并不多见,因此形成本文分析,权当记录之用. 木马在报毒截图如下: 木马的执行流程图如下:

揭开AutoRun功能的神秘面纱

有很多光盘放入光驱就会自动运行,它们是怎么做到的呢?光盘一放入光驱就会自动被执行,主要依靠两个文件,一是光盘上的AutoRun.inf文件,另一个是操作系统本身的系统文件之一的Cdvsd.vxd.Cdvsd.vxd会随时侦测光驱中是否有放入光盘的动作,如果有的话,便开始寻找光盘根目录下的AutoRun.inf文件:如果存在AutoRun.inf文件则执行它里面的预设程序.   比如插入一张Windows安装光盘,用不了几秒钟,你就会看到Windows欢迎屏幕,关闭这个窗口,然后按住Shift键双