Python FAQ3-python中的原始(raw)字符串

本篇源自py2.7.9-docs的faq.pdf中的“3.23 Why can’t raw strings (r-strings) end with a backslash?”

更准确的说,原始字符串即以r修饰的字符串,不能以奇数个反斜杠结束;

原始字符串被设计用来作为一些处理器(主要是正则表达式引擎)的输入。这种处理器会认为这种未匹配的末端反斜杠是种错误,所以,原始字符串也就不允许以奇数个反斜杠结束。反过来,他们允许你使用斜杠来表示转义,包括\"表示",\t表示TAB等。当原始字符串用于这些处理器时,这个规则适用。

如果原始字符串不用于正则表达式等处理器,只是简单的代表一个字符串,那么该串中的\就是\,而不再具有转义的含义,这就是所谓的‘原始’。

下面我会一步步的解释字符串和原始字符串的区别

1.用于单独的字符串表示:

简单字符串中存在\转义行为,而原始字符串中\n就是\n字符

>>> s = "i have\na dream"
>>> r = r‘i have\na dream‘
>>> print s
i have
a dream
>>> print r
i have\na dream

2.原始字符串用于正则表达式中

我们使用windows路径来做例子介绍原始字符串的一次转义

>>> path = r"\this\is\a\path\"
  File "<stdin>", line 1
    path = r"\this\is\a\path\"    #原始字符串不允许单数个\结尾,不管是用于正则还是普通字串
                             ^
SyntaxError: EOL while scanning string literal
>>> path = r"\this\is\a\path\ "[:-1] 
>>> path
‘\\this\\is\\a\\path\\‘        #定义了一个待匹配的字符串
>>> reg1 = r‘\\this\\is\\a\\path\\‘ #定义了自然字符串表示的正则表达式
>>> import re
>>> g = re.match(reg1, path)    #使用自然字符串进行匹配
>>> print g.group()
\this\is\a\path\               #匹配到了结果,表示真实的\字符可以被自然字符串以\\匹配上
>>>                            #\\转义的结果就是\

3.简单字符串用于正则表达式中

让我们使用上面的path变量来制作简单字符串用来匹配的例子

>>> reg2 = ‘\\this\\is\\a\\path\\‘
>>> g = re.match(reg2, path)         #竟然报异常了,根据异常的意思是行尾是虚假的转义
Traceback (most recent call last):  #下面我们再探究原因,先把行尾的\\去掉,再次进行匹配
  File "<stdin>", line 1, in <module>
  File "D:\Python27\lib\re.py", line 137, in match
    return _compile(pattern, flags).match(string)
  File "D:\Python27\lib\re.py", line 244, in _compile
    raise error, v # invalid expression
sre_constants.error: bogus escape (end of line)

>>> reg2 = ‘\\this\\is\\a\\path‘    
>>> g = re.match(reg, path)         #按照原始字符串的理解,这里应该可以匹配上的,但是没有
>>> print g.group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: ‘NoneType‘ object has no attribute ‘group‘

为什么会出现差异,又为什么到处都建议正则匹配时要使用r‘字符串‘呢?

让我们分析下原始字符串和简单字符串的区别:简单字符串如果想输出‘\’,需要进行转义即‘\\‘才会输出一个‘\‘;那原始字符串想要输出‘\‘,则直接写即可‘\‘。

这里有些乱,我觉得主要在于str、repr在捣乱:

>>> print path                     #这里调用str,人们习惯的显示方式
\this\is\a\path>>> path                           #这里调用repr,真实的显示方式(比str的显示仅多了一层转义)
‘\\this\\is\\a\\path\\‘

让我们全部将真实的显示方式当做参照物,即

path的真实显示是:‘\\this\\is\\a\\path\\‘

简单字符串的正则表达式reg2的真实显示是:‘\\this\\is\\a\\path‘

原始字符串的正则表达式reg1的真实显示是:‘\\\\this\\\\is\\\\a\\\\path\\\\‘

从真实的显示来看匹配就容易理解的多了,而且没有了原始和简单字符串之分,都看做是正则引擎应用的串。从上面可以看出reg2中\\只能匹配\,而path中是\\,需要像reg1中的\\\\来进行匹配。

追根溯源向来比较绕,还是简单记住使用规则,匹配路径\字符,需要普通字符串输入4个斜杠(\\\\)匹配上,而原始字符串仅需要2个斜杠(\\)即可匹配上。这也是鼓励使用原始字符串进行正则匹配的原因。

时间: 2024-10-16 17:02:59

Python FAQ3-python中的原始(raw)字符串的相关文章

python向mysql中插入数字、字符串、日期总结

import pymysql# 连接数据库 conn = pymysql.connect( host="10.62.1.1", port=3306, user="root", password="root", database="fe_auto", charset="utf8") # 生成游标对象cursor = conn.cursor()case_id = 11111operator = 'zcy'fro

android中读取原始 Raw 资源

存储在res/raw位置的文件不会被平台编译,而是作为可用的原始资源. 读取原始资源非常简单. 首先调用Context.getResource获得当前应用程序上下文的Resources引用. 然后调用openRawResource(int id)得到InputStream. 最后,操作InputStream得到数据.注意:把文件放在res/raw目录下,则R类会自动提供该id.提速文件读取其原理就是读的时候,先把文件的一些数据读到缓冲中.这样的好处是如果读的内容已经在缓冲中,就读缓冲的数据. 如

Python中的raw字符串和多行字符串

1.raw字符串(原始字符串) 如果一个字符串包含很多需要转义的字符,对每一个字符都进行转义会很麻烦.为了避免这种情况, 我们可以在字符串前面加个前缀r,表示这是一个 raw 字符串,里面的字符就不需要转义了.例如: r'\(^_^)/ \(~_~)/' raw字符串表示原始字符串,我对于原始的理解就是:你看到这个字符串是什么就显示什么,去掉 所有字符都不进行转义,该显示啥就是啥. 2.多行显示 Python中除了可以使用单引号' '.双引号" "表示一个字符串,还可以使用三引号来表示

Python中raw字符串与多行字符串

如果一个字符串包含很多需要转义的字符,对每一个字符都进行转义会很麻烦.为了避免这种情况,我们可以在字符串前面加个前缀r ,表示这是一个 raw 字符串,里面的字符就不需要转义了.例如: r'\(~_~)/ \(~_~)/' 但是r'...'表示法不能表示多行字符串,也不能表示包含'和 "的字符串(为什么?) 如果要表示多行字符串,可以用'''...'''表示: '''Line 1 Line 2 Line 3''' 上面这个字符串的表示方法和下面的是完全一样的: 'Line 1\nLine 2\n

【python】python中的字符串

python中的转义字符 转义字符单独打出来是没有作用的,更多适用于print函数 常用转义字符有如下 \n(换行),\t(制表/缩进) python中可以用三个单引号在shell中跨行输入字符串,此时shell会自动补齐转义字符,但是print时保持原样 >>>t = '''tsing hua university >>>''' >>>'tsing\nhua\nuniversity\n' >>>print(t) >>&g

Python 入门(一)定义字符串+raw字符串与多行字符串

定义字符串 前面我们讲解了什么是字符串.字符串可以用''或者""括起来表示. 如果字符串本身包含'怎么办?比如我们要表示字符串 I'm OK ,这时,可以用" "括起来表示: "I'm OK" 类似的,如果字符串包含",我们就可以用' '括起来表示: 'Learn "Python" in imooc' 如果字符串既包含'又包含"怎么办? 这个时候,就需要对字符串的某些特殊字符进行“转义”,Python字符串

python中的list,字符串转换

在Python的编程中,经常会涉及到字符串与list之间的转换问题,下面就将两者之间的转换做一个梳理.1.list转换成字符串 命令:list() 例子: 2.字符串转换成list命令:"".join(list) 其中,引号中是字符之间的分割符,如",",";","\t"等等 [python] view plain copy['1', '2', '3', '4', '5'] ['123', 'sjhid', 'dhi'] ['

python中的数据类型及字符串操作

1. 基本数据类型概况 1, int 整数 2. str 字符串 3. bool 布尔值 4. list 列表. 一般存放大量的数据 ["门神xxxx", "风扇哥xxxx", 元素] 5. tuple 元组. 只读列表, 只能看啥也不能干. (元素, 元素) 6. dict 字典. {"风扇哥":"王伟哲", "wlh": "王力宏"} 7. set 集合 {"风扇哥&quo

python中format函数用于字符串的格式化

python中format函数用于字符串的格式化 通过关键字 print('{名字}今天{动作}'.format(名字='陈某某',动作='拍视频'))#通过关键字 grade = {'name' : '陈某某', 'fenshu': '59'} print('{name}电工考了{fenshu}'.format(**grade))#通过关键字,可用字典当关键字传入值时,在字典前加**即可 通过位置 print('{1}今天{0}'.format('拍视频','陈某某'))#通过位置 print