84-虚拟机的词法解析

84-虚拟机的词法解析

语言从广义上来讲是人们进行沟通交流的各种表达符号。每种语言都有专属于自己的符号,表达方式和规则。 就编程语言来说,它也是由特定的符号,特定的表达方式和规则组成。 语言的作用是沟通,不管是自然语言,还是编程语言,它们的区别在于自然语言是人与人之间沟通的工具, 而编程语言是人与机器之间的沟通渠道。相对于自然语言,编程语言的历史还非常短, 虽然编程语言是站在历史巨人的基础上创建的,但是它还很小,还是一个小孩。 它只能按编程人员所给的指令翻译成对应的机器可以识别的语言。它就相当于一个转化工具, 将人们的知识或者业务逻辑转化成机器码(机器的语言),让其执行对应的的操作。 而这些指令是一些规则,一些约定,这些规则约定都是由编程语言来处理。

就PHP语言来说,它也是一组符合一定规则的约定的指令。 在编程人员将自己的想法以PHP语言实现后,通过PHP的虚拟机将这些PHP指令转变成C语言 (可以理解为更底层的一种指令集)指令,而C语言又会转变成汇编语言, 最后汇编语言将根据处理器的规则转变成机器码执行。这是一个更高层次抽象的不断具体化,不断细化的过程。

这里,我们讨论PHP虚拟机是如何将PHP语言转化成C语言。 从一种语言到另一种语言的转化称之为编译,这两种语言分别可以称之为源语言和目标语言。 这种编译过程通过发生在目标语言比源语言更低级(或者说更底层)。 语言转化的编译过程是由编译器来完成, 编码器通常被分为一系列的过程:词法分析、语法分析、语义分析、中间代码生成、代码优化、目标代码生成等。 前面几个阶段(词法分析、语法分析和语义分析)的作用是分析源程序,我们可以称之为编译器的前端。 后面的几个阶段(中间代码生成、代码优化和目标代码生成)的作用是构造目标程序,我们可以称之为编译器的后端。 一种语言被称为编译类语言,一般是由于在程序执行之前有一个翻译的过程, 其中关键点是有一个形式上完全不同的等价程序生成。 而PHP之所以被称为解释类语言,就是因为并没有这样的一个程序生成, 它生成的是中间代码,这只是PHP的一种内部数据结构。

这里我们会介绍PHP编译器的前端的两个阶段,语法分析、语法分析;后端的一个阶段,中间代码生成。

在前面我们提到语言转化的编译过程一般分为词法分析、语法分析、语义分析、中间代码生成、代码优化、目标代码生成等六个阶段。 不管是编译型语言还是解释型语言,扫描(词法分析)总是将程序转化成目标语言的第一步。 词法分析的作用就是将整个源程序分解成一个一个的单词, 这样做可以在一定程度上减少后面分析工作需要处理的个体数量,为语法分析等做准备。 除了拆分工作,更多的时候它还承担着清洗源程序的过程,比如清除空格,清除注释等。 词法分析作为编译过程的第一步,在业界已经有多种成熟工具,如PHP在开始使用的是Flex,之后改为re2c, MySQL的词法分析使用的Flex,除此之外还有作为UNIX系统标准词法分析器的Lex等。 这些工具都会读进一个代表词法分析器规则的输入字符串流,然后输出以C语言实做的词法分析器源代码。 这里我们只介绍PHP的现版词法分析器,re2c。

re2c是一个扫描器制作工具,可以创建非常快速灵活的扫描器。 它可以产生高效代码,基于C语言,可以支持C/C++代码。与其它类似的扫描器不同, 它偏重于为正则表达式产生高效代码(和他的名字一样)。因此,这比传统的词法分析器有更广泛的应用范围。 你可以在sourceforge.net获取源码。

PHP在最开始的词法解析器是使用的是Flex,后来改为使用re2c。 在源码目录下的Zend/zend_language_scanner.l 文件是re2c的规则文件, 如果需要修改该规则文件需要安装re2c才能重新编译,生成新的规则文件。

re2c调用方式:

re2c [-bdefFghisuvVw1] [-o output] [-c [-t header]] file

我们通过一个简单的例子来看下re2c。如下是一个简单的扫描器,它的作用是判断所给的字符串是数字/小写字母/大小字母。 当然,这里没有做一些输入错误判断等异常操作处理。示例如下:

#include <stdio.h>

char *scan(char *p){
#define YYCTYPE char
#define YYCURSOR p
#define YYLIMIT p
#define YYMARKER q
#define YYFILL(n)
    /*!re2c
      [0-9]+ {return "number";}
      [a-z]+ {return "lower";}
      [A-Z]+ {return "upper";}
      [^] {return "unkown";}
     */
}

int main(int argc, char* argv[])
{
    printf("%s\n", scan(argv[1]));

    return 0;
}

如果你是在ubuntu环境下,可以执行下面的命令生成可执行文件。

re2c -o a.c a.l
gcc a.c -o a
chmod +x a
./a 1000

此时程序会输出number。

我们解释一下我们用到的几个re2c约定的宏。

  • YYCTYPE 用于保存输入符号的类型,通常为char型和unsigned char型
  • YYCURSOR 指向当前输入标记, -当开始时,它指向当前标记的第一个字符,当结束时,它指向下一个标记的第一个字符
  • YYFILL(n) 当生成的代码需要重新加载缓存的标记时,则会调用YYFILL(n)。
  • YYLIMIT 缓存的最后一个字符,生成的代码会反复比较YYCURSOR和YYLIMIT,以确定是否需要重新填充缓冲区。

参照如上几个标识的说明,可以较清楚的理解生成的a.c文件,当然,re2c不会仅仅只有上面代码所显示的标记, 这只是一个简单示例,更多的标识说明和帮助信息请移步 re2c帮助文档:http://re2c.org/manual.html

我们回过头来看PHP的词法规则文件zend_language_scanner.l。 你会发现前面的简单示例与它最大的区别在于每个规则前面都会有一个条件表达式。

NOTE re2c中条件表达式相关的宏为YYSETCONDITION和YYGETCONDITION,分别表示设置条件范围和获取条件范围。 在PHP的词法规则中共有10种,其全部在zend_language_scanner_def.h文件中。此文件并非手写, 而是re2c自动生成的。如果需要生成和使用条件表达式,在编译成c时需要添加-c 和-t参数。

在PHP的词法解析中,它有一个全局变量:language_scanner_globals,此变量为一结构体,记录当前re2c解析的状态,文件信息,解析过程信息等。 它在zend_language_scanner.l文件中直接定义如下:

#ifdef ZTS
ZEND_API ts_rsrc_id language_scanner_globals_id;
#else
ZEND_API zend_php_scanner_globals language_scanner_globals;
#endif

在zend_language_scanner.l文件中写的C代码在使用re2c生成C代码时会直接复制到新生成的C代码文件中。 这个变量贯穿了PHP词法解析的全过程,并且一些re2c的实现也依赖于此, 比如前面说到的条件表达式的存储及获取,就需要此变量的协助,我们看这两个宏在PHP词法中的定义:

//  存在于zend_language_scanner.l文件中
#define YYGETCONDITION()  SCNG(yy_state)
#define YYSETCONDITION(s) SCNG(yy_state) = s
#define SCNG    LANG_SCNG

//  存在于zend_globals_macros.h文件中
# define LANG_SCNG(v) (language_scanner_globals.v)

结合前面的全局变量和条件表达式宏的定义,我们可以知道PHP的词法解析是通过全局变量在一次解析过程中存在。 那么这个条件表达式具体是怎么使用的呢?我们看下面一个例子。这是一个可以识别为结束, 识别字符,数字等的简单字符串识别器。它使用了re2c的条件表达式,代码如下:

#include <stdio.h>
#include "demo_def.h"
#include "demo.h"

Scanner scanner_globals;

#define YYCTYPE char
#define YYFILL(n)
#define STATE(name)  yyc##name
#define BEGIN(state) YYSETCONDITION(STATE(state))
#define LANG_SCNG(v) (scanner_globals.v)
#define SCNG    LANG_SCNG

#define YYGETCONDITION()  SCNG(yy_state)
#define YYSETCONDITION(s) SCNG(yy_state) = s
#define YYCURSOR  SCNG(yy_cursor)
#define YYLIMIT   SCNG(yy_limit)
#define YYMARKER  SCNG(yy_marker)

int scan(){
    /*!re2c

      <INITIAL>"<?php" {BEGIN(ST_IN_SCRIPTING); return T_BEGIN;}
      <ST_IN_SCRIPTING>[0-9]+ {return T_NUMBER;}
      <ST_IN_SCRIPTING>[ \n\t\r]+ {return T_WHITESPACE;}
      <ST_IN_SCRIPTING>"exit" { return T_EXIT; }
      <ST_IN_SCRIPTING>[a-z]+ {return T_LOWER_CHAR;}
      <ST_IN_SCRIPTING>[A-Z]+ {return T_UPPER_CHAR;}
      <ST_IN_SCRIPTING>"?>" {return T_END;}

      <ST_IN_SCRIPTING>[^] {return T_UNKNOWN;}
      <*>[^] {return T_INPUT_ERROR;}
     */
}

void print_token(int token) {
    switch (token) {
        case T_BEGIN: printf("%s\n", "begin");break;
        case T_NUMBER: printf("%s\n", "number");break;
        case T_LOWER_CHAR: printf("%s\n", "lower char");break;
        case T_UPPER_CHAR: printf("%s\n", "upper char");break;
        case T_EXIT: printf("%s\n", "exit");break;
        case T_UNKNOWN: printf("%s\n", "unknown");break;
        case T_INPUT_ERROR: printf("%s\n", "input error");break;
        case T_END: printf("%s\n", "end");break;
    }
}

int main(int argc, char* argv[])
{
    int token;
    BEGIN(INITIAL); //  全局初始化,需要放在scan调用之前
    scanner_globals.yy_cursor = argv[1];    //将输入的第一个参数作为要解析的字符串

    while(token = scan()) {
        if (token == T_INPUT_ERROR) {
            printf("%s\n", "input error");
            break;
        }
        if (token == T_END) {
            printf("%s\n", "end");
            break;
        }
        print_token(token);
    }

    return 0;
}

和前面的简单示例一样,如果你是在linux环境下,可以使用如下命令生成可执行文件

re2c -o demo.c -c -t demo_def.h demo.l
gcc demo.c -o demo -g
chmod +x demo

在使用re2c生成C代码时我们使用了-c -t demo_def.h参数,这表示我们使用了条件表达式模式,生成条件的定义头文件。 main函数中,在调用scan函数之前我们需要初始化条件状态,将其设置为INITIAL状态。 然后在扫描过程中会直接识别出INITIAL状态,然后匹配

时间: 2024-11-03 12:19:04

84-虚拟机的词法解析的相关文章

自制操作系统Antz(14)——实现内置编程语言(词法解析器)

AntzScript ?? The language executed in the Antz system. 基于以实现的内置vim,接下来需要实现Antz系统中内置语言AntzScript. Antz系统更新地址 Antz项目地址 AntzScript项目地址 vim 一.概述 1. 解释器与编译器 1.1 解释器 解释器根据程序中的算法执行运算.简单地说,它是一种用于执行程序的软件. 1.2 编译器 编译器能将某种语言写成的程序转换为另一种语言的程序.通常它会将源程序转换为机器语言程序.编

jQuery-1.9.1源码分析系列(三) Sizzle选择器引擎——词法解析

jQuery源码9600多行,而Sizzle引擎就独占近2000行,占了1/5.Sizzle引擎.jQuery事件机制.ajax是整个jQuery的核心,也是jQuery技术精华的体现.里面的有些策略确实很值得学习,先膜拜之,然后细细学习. 在学习Sizzle引擎之前我们先准备一点知识,和先了解Sizzle引擎的一点工作原理. <div id="chua"> <a> <span>chua的测试用例</span> </a> &l

用java开发编译器之Thompson构造:正则表达式的词法解析

Thompson构造:正则表达式的词法解析 大家好,欢迎大家来到coding迪斯尼,阅读博客的朋友可以到我的网易云课堂中,通过视频的方式查看代码的调试和执行过程: http://study.163.com/course/courseMain.htm?courseId=1002830012 继上一节我们开发了闭包替换功能后,这一节,我们继续推进Thompson 构造算法的开发.我们的目标是,给定一组正则表达式后,把他转换为NFA有限状态自动机.无论是正则表达式,还是最终的有限状态自动机,他们的本质

Atiit 如何手写词法解析器

1.1. 通过编程直接从正则->nfa->dfa->表驱动词法解析一条龙自动生成.那是用程序自动生成是需要这样的,自己手写完全不必要这么复杂1 1.2. 状态转移表.使用状态表比较简单,dfa比较麻烦.Dfa其实就是比较高级的状态表..1 1.3. 然后给了你代码框架(这里以nested case statement 为例):2 1.4. 源码实现2 1.1. 通过编程直接从正则->nfa->dfa->表驱动词法解析一条龙自动生成.那是用程序自动生成是需要这样的,自己手

kickstart虚拟机安装故障解析

新建虚拟机或客户端常见报错: 如果遇到了以下错误 Error processing driver  thisdevice may need to be reinitialized ,那 几乎可以肯定是制作ks.cfg文件时,没有选择清除原有MBR.而不是内存不足. 解决办法: 重新制作ks.cfg,或者修改成以下样子: # System bootloader configuration bootloader --location=mbr # Clear the Master Boot Recor

虚拟机联网及解析域名方法

虚拟机联网及域名解析办法 (一)虚拟机联网解决办法 (1)虚拟机设置 虚拟机的连接方式设置为host-only (2)本地连接设置 在网络和共享中心,点击"更改适配器设置",选择"本地连接",点击"属性"选择"共享"选项卡,选中 Internet连接共享选项. (3)设置VMnet1的Ip地址,不要和物理网卡设在同一个网段 如果用的是Oracle的VM VirtualBox,则是双击"VirtualBox Host-

vSphere 6 创建RAC虚拟机共享磁盘解析

在vsphere环境中搭建虚机RAC需要遵循一定的步骤,虚拟机配置RAC,如果不是挂裸盘RDM的话,按以下步骤进行,不影响VMotion 的功能,但是影响Storage VMotion 的功能.在数据库系统云化实施中,对oracleRAC要求部署在虚拟机中的场景,可以采用以下步骤来进行实施. 要点: 各节点均采用单独的pvscsi控制器,SCSI总线共享选物理 添加厚制备置零的硬盘,各节点SCSI ID保持一致 每个节点双网卡或多网卡,用vmxnet3 设置磁盘为独立磁盘,这样对VM拍快照不会对

VirtualBox虚拟机网络环境解析和搭建-NAT、桥接、Host-Only、Internal、端口映射

一.NAT模式 特点: 1.如果主机可以上网,虚拟机可以上网 2.虚拟机之间不能ping通 3.虚拟机可以ping通主机(此时ping虚拟机的网关,即是ping主机) 4.主机不能ping通虚拟机 应用场景: 虚拟机只要求可以上网,无其它特殊要求,满足最一般需求 配置方法: 连接方式 选择 网络地址转换(NAT) 高级-控制芯片 选择 PCnet-FAST III 高级-混杂模式 拒绝 高级-接入网线 √ (虚拟机ip自动获取) ip样式: ip 10.0.2.15 网关 10.0.2.2 注意

虚拟机值libvirt解析

1.什么是libvirt 虚拟云实现的三部曲:虚拟化技术实现-->虚拟机管理-->集群资源管理(云管理).各种不同的虚拟化技术都提供了基本的管理工具.比如,启动,停用,配置,连接控制台等.**这样在构建云管理的时候就存在两个问题:** * 1) 如果采用混合虚拟技术,上层就需要对不同的虚拟化技术调用不同管理工具,很是麻烦. * 2) 虚拟化技术发展很迅速,系统虚拟化和容器虚拟化均在发展和演化中.可能有新的虚拟化技术更加符合现在的应用场景,需要迁移过去.这样管理平台就需要大幅改动. 为了适应变化