Python(八) 正则表达式与JSON

一、初识正则表达式

正则表达式 是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配

快速检索文本、实现替换文本的操作

json(xml) 轻量级 web 数据交换格式

import re

a=‘C|C++|Java|C#||Python|Javascript‘

r= re.findall(‘Python‘,a)
print(r)

if len(r) > 0:
    print(‘字符串中包含Python‘)
else:
    print(‘No‘)

[‘Python‘]
字符串中包含Python

二、元字符与普通字符

import re

a=‘C0C++7Java8C#9Python6Javascript‘

r= re.findall(‘\d‘,a)
print(r)

b=‘‘
for x in a:
    try:
        int(x)
        b +=x+‘,‘
    except :
        pass

print(b)

结果:
[‘0‘, ‘7‘, ‘8‘, ‘9‘, ‘6‘]
0,7,8,9,6,

‘Python‘ 普通字符 ‘\d‘ 元字符

三、字符集

import re

#找出中间一个字符不是C 和F的 单词
s = ‘abc, acc, adc, aec, afc, ahc‘

r = re.findall(‘a[^cf]c‘, s)  #[a-z] [cf]
print(r)

结果:
[‘abc‘, ‘adc‘, ‘aec‘, ‘ahc‘]

四、概括字符集

#\d 数字  \D 字母
#\w  数字和字母 =[a-zA-Z0-9_]  \W
#\s  空白字符  \S
a=‘python 11\t11java&678p\nh\rp‘

r = re.findall(‘\s‘, a)
print(r)

结果:
[‘ ‘, ‘\t‘, ‘\n‘, ‘\r‘]

五、数量词

a=‘python 1111java&678php‘

r = re.findall(‘[a-z]{3,6}‘, a)
print(r)

结果:
[‘python‘, ‘java‘, ‘php‘]

六、贪婪与非贪婪

a=‘python 1111java&678php‘

r = re.findall(‘[a-z]{3,6}?‘, a)
#贪婪 与 非贪婪 ?

print(r)

结果:
[‘pyt‘, ‘hon‘, ‘jav‘, ‘php‘]

七、匹配0次1次或者无限多次

# * 匹配0次或者无限多次
# + 匹配1次或者无限多次
# ? 匹配0次或者1次

a=‘pytho0python1pythonn2pythonw‘

r = re.findall(‘python*‘, a)

print(r)

结果:
[‘pytho‘, ‘python‘, ‘pythonn‘, ‘python‘]

八、边界匹配符

qq = ‘12345678‘
# 4~8
r =  re.findall(‘^\d{4,8}$‘, qq)
print(r)

a = ‘123456789‘
# 4~8  ^规则$ ^开头 $结尾
e =  re.findall(‘^\d{4,8}$‘, a)
print(e)

结果:
[‘12345678‘]
[]

九、组

# () 组 

a = ‘pythonpythonpythonpythonpython‘
#
r =  re.findall(‘(python){3}‘, a)
print(r)

结果:
[‘python‘]  代表存在一组(pythonpythonpython) 这样的数据

十、匹配模式参数

# I | S 忽略大小写 | 匹配所有字符

lanuage = ‘PythonC#\nJavaPHP‘

r = re.findall(‘c#.{1}‘, lanuage,re.I | re.S)

print(r)

结果:
[‘C#\n‘]

十一、re.sub正则替换

搜索替换

def convert(value):
    matched = value.group()
    # print(value) <_sre.SRE_Match object; span=(6, 8), match=‘C#‘>
    return ‘!!‘+matched+‘!!‘

lanuage = ‘PythonC#JavaC#PHPC#‘

# r = re.sub(‘C#‘, ‘GO‘, lanuage, 1) 返回结果: PythonGOJavaC#PHPC#
# s=lanuage.replace(‘C#‘, ‘GO‘)
r = re.sub(‘C#‘, convert, lanuage)  #传入参数
print(r)

结果:
Python!!C#!!Java!!C#!!PHP!!C#!!

十二、把函数作为参数传递

def convert(value):
    matched = value.group() #拿到对象的值
    # print(value) <_sre.SRE_Match object; span=(6, 8), match=‘C#‘>
    if int(matched) >=6 :
        return ‘9‘
    else:
        return ‘0‘

lanuage = ‘A8C3721D86‘

r = re.sub(‘\d‘, convert, lanuage)
print(r)

#
A9C0900D99

十三、search与match函数

s = ‘A8C3721D86‘
# None 从开头开始匹配 假如没有找到相应的匹配结果 返回None 只匹配一次
r = re.match(‘\d‘, s)
print(r) #None

#搜索这个字符串 一旦找到第一个满足匹配的结果就返回 只匹配一次
r1 = re.search(‘\d‘, s)
print(r1) #<_sre.SRE_Match object; span=(1, 2), match=‘8‘>
print(r1.group()) #8
print(r1.span()) # (1, 2)

r2 = re.findall(‘\d‘, s)
print(r2)  #[‘8‘, ‘3‘, ‘7‘, ‘2‘, ‘1‘, ‘8‘, ‘6‘]

十四、group分组

#提取life 和python 之间的值
s = ‘life is short,i use python‘
#None
r = re.search(‘life.*python‘, s)
print(r.group()) #life is short,i use python group(组号)

r = re.search(‘life(.*)python‘, s)
print(r.group(0)) #life is short,i use python group(组号)
print(r.group(1)) # is short,i use

#group(0)  一种特殊情况 匹配正则表达式完整的结果

r = re.findall(‘life(.*)python‘, s)
print(r) #[‘ is short,i use ‘]
s = ‘life is short,i use python, i love python‘

r = re.search(‘life(.*)python(.*)python‘, s)
print(r.group(0)) # life is short,i use python, i love python
print(r.group(1)) # is short,i use
print(r.group(2)) # , i love

print(r.group(0,1,2)) #(‘life is short,i use python, i love python‘, ‘ is short,i use ‘, ‘, i love ‘)

print(r.groups()) # (‘ is short,i use ‘, ‘, i love ‘)

十五、一些关于学习正则的建议

#\d 数字  \D 字母
#\w  数字和字母 =[a-zA-Z0-9_]  \W
#\s  空白字符  \S
# .  匹配除了换行符\n之外其他所有字符
# * 匹配0次或者无限多次
# + 匹配1次或者无限多次
# ? 匹配0次或者1次
# () 组
# I | S 忽略大小写 | 匹配所有字符

python :爬虫,数据处理

十六、理解JSON

JSON  是一种轻量级的数据交换格式

字符串是JSON的表现形式

符合 JSON 格式的字符串叫做 JSON 字符串

{"name":"qiyue"}

JSON VS XML

优势:

跨语言交换数据

易于阅读

易于解析

网络传输效率高

十七、反序列化

import json

# JSON object array
json_str = ‘{"name":"qiyue","age":18}‘
s =  json.loads(json_str)

# dict
#反序列化
s =  json.loads(json_str) #load()  把json 的数据类型 转换为我们自己语言的数据类型
print(type(s)) #<class ‘dict‘>
print(s) #{‘name‘: ‘qiyue‘, ‘age‘: 18}
print(s[‘name‘]) # qiyue

json_str = ‘[{"name":"qiyue","age":18},{"name":"qiyue","age":18}]‘
s =  json.loads(json_str)
print(type(s)) # <class ‘list‘>
print(s) # [{‘name‘: ‘qiyue‘, ‘age‘: 18}, {‘name‘: ‘qiyue‘, ‘age‘: 18}]
JSON     Python
object   dict
array    list
string   str
number   int
number   float
true     True
false    False
null     None

十八、序列化

#序列化 为json

student = [
    {"name":"qiyue","age":18, ‘flag‘:False},
    {"name":"python","age":18}
]

json_str =  json.dumps(student)
print(type(json_str)) # <class ‘str‘>
print(json_str) #[{"name": "qiyue", "age": 18, "flag": false}, {"name": "python", "age": 18}]

十九、小谈JSON、JSON对象与JSON字符串

JSON 是一种轻量级的数据交换格式

JSON对象 局限于语言

JSON字符串

JSON 有自己的数据类型

虽然它和JavaScript  的数据类型有些相似 但是他们不是一种语言

ECMASCRIPT一个标准  JavaScript   ActionScription  JSON 实现标准的一种方案

REST 服务

原文地址:https://www.cnblogs.com/zhangtaotqy/p/9498543.html

时间: 2024-10-09 19:54:56

Python(八) 正则表达式与JSON的相关文章

python学习笔记八——正则表达式

1.元字符 []-常用来指定一个字符集:[abc];[a-z] -元字符在字符集中不起作用:[akm$] -补集匹配不在区间范围内的字符:[^5] ^-匹配行首 $-匹配行尾 \-后可加不同字符以表示不同意义,也可用于取消所有元字符 \d 匹配任何十进制数,相当于[0-9] \D 匹配任何非数字字符,相当于[^0-9] \s 匹配任何空白字符,相当于[\t\n\r\f\v] \S 匹配任何非空白字符 \w 匹配任何字母数字字符 \W 匹配任何非字母数字字符 *-匹配前一个字符零次或多次 +-至少

使用Python Yaml包处理Json数据

在做网络爬虫的时候会遇到json数据格式的数据包,如果返回的是一个json格式的文件,可以使用 Python Yaml包处理数据,不需要再使用正则表达式匹配了,使用实例如 https://maps-api-ssl.google.com/maps/suggest?q=hello  这个地址,我们需要query对应的数据项. 相关代码如下: # -*- coding: utf-8 -*- import yaml import urllib2 address = 'https://maps-api-s

Python3快速入门(八)——Python3 JSON

Python3快速入门(八)--Python3 JSON 1.JSON简介 JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式,是基于ECMAScript的一个子集. 2.json模块简介 Python3 中可以使用 json 模块来对 JSON 数据进行编解码,包含两个函数:json.dumps():?对数据进行编码.json.loads():?对数据进行解码.在json的编解码过程中,Python 的数据类型与json类型会相互转换.json.du

python 中正则表达式

. 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 代码/语法 说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 [aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!). [0-9]代表的含意与\d就是完全一致的:一位数字:同理[a-z0-9A-Z_]也完

python用正则表达式怎么查询unicode码字符

import re data = open('a.txt') fh = open('b.txt', 'w') """Search the string begining with '['""" p = re.compile(r'\s*[\u3010]') for each_d in data: if re.match('\s*3\d{4}', each_d): each_d = each_d.strip() print(each_d + ': '

【python】正则表达式

在python中,所有和正则表达式相关的功能都包含在re模块中. $表示字符串的末尾,^表示字符串的开始,原始字符串:字符串添加前缀r,表示字符串中的所有字符都不转义.\b表示单词的边界必须在这里. s="100 BROAD" re.sub('ROAD$','RD',s) 结果:'100 BRD' re.sub(r'\bROAD$','RD',s) 结果:100 BROAD M?可选地匹配单个字符,要么一个M,要么没有M.re模块的关键是一个search函数,该函数由两个参数,一个是正

python 数据提取之JSON与JsonPATH

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与后台之间的数据交互. JSON和XML的比较可谓不相上下. Python 2.7中自带了JSON模块,直接import json就可以使用了. 官方文档:http://docs.python.org/library/json.html Json在线解析网站:http://www.json.cn/#

python使用正则表达式文本替换

2D客户端编程从某种意义上来讲就是素材组织,所以,图片素材组织经常需要批量处理,python一定是最佳选择,不过是win/linux/mac都有一个简单的运行环境 举两个应用场景: 如果不是在某个文件夹里面则将文件夹名称插入前面 所有的文件名名称加上一个前缀 直接看代码吧 # encoding: UTF-8 import re # 将正则表达式编译成Pattern对象 p = re.compile(r'(?P<folder>(\w+/)*)(?P<filename>\w+\.png

6.python序列化功能之json&pickle

json模块是个非常重要的模块,可以实现任何语言之间跨平台的数据交换,还可以实现一些比较简单的数据类型的持久化.(这里的持久化就是说,把python内部一些比较简单的数据类型,比如说像字符串,列表,元组,字典之类的数据类型,转换为json字符串的标准格式,保存到硬盘中.) json模块常用函数: json.dumps():将python以字典为主的数据类型,包括(列表,元组,等)转换为json字符串. json.loads():将json字符串转换为python可识别的数据类型. json.du