Win7下 Python中文正则的奇异表现

首先贴Win32下的直接Python shell下的测试结果：

Python 2.7.6 (default, Nov 10 2013, 19:24:18) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> import re
>>> print re.match(ur‘[\u4e00-\u9fa5]+‘,u"中国")
None
>>>

>>> import sys
>>> sys.getdefaultencoding()
‘ascii‘

>>> str1=u"中国"
>>> str1
u‘\xd6\xd0\xb9\xfa‘

接着来先cmd，再python命令进入python交互环境下的结果：

Microsoft Windows [版本 6.1.7601]
版权所有 (c) 2009 Microsoft Corporation。保留所有权利。  

C:\Users\user>python
Python 2.7.6 (default, Nov 10 2013, 19:24:18) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> print re.match(ur‘[\u4e00-\u9fa5]+‘,u"中国")
<_sre.SRE_Match object at 0x00522C28>
>>> import sys
>>> sys.getdefaultencoding()
‘ascii‘

>>> str1=u"中国"
>>> str1
u‘\u4e2d\u56fd‘

生产应用中的问题好像是因为codeing设置的添加而解决，和上面这个问题有一定关系，以上形式是交互环境下测试所得的结果。

参考资料：http://www.limijd.me/2013/02/python%E9%87%8Cunicode%E5%92%8Cutf-8%E7%9A%84%E5%8C%BA%E5%88%AB/

时间： 2024-10-24 15:00:53

Win7下 Python中文正则的奇异表现的相关文章

python 中文正则表达匹配

需求:由于某个n年前的工具的错误,在复制一批文件的时候产生了大量的"复件xxxxxxx""复件(2)XXXXX"等类似文件,由于目录结构深,文件多,预计在5000万个,但是有多少这种错误的文件不清楚,因此写个脚本遍历删除. #encoding=utf-8 #author: skybug #date: 2014-05-11 #function: 遍历指目录,删除中文开头的文件名的图片 import os,re cnt = 0 pattern = re.compile(

在win7下python的xlrd和xlwt的安装于应用

首先到http://pypi.python.org/pypi/xlwt 和http://pypi.python.org/pypi/xlrd下载xlwt-0.7.4.tar.gz和xlrd-0.7.7.tar.gz. 第二把下载的两个.gz包解压,如我把它们解压到F:DOWNLOAD下. 在win7下打开cmd,在命令行输入F:,切换到F盘,再cd DOWNLOAD\xlrd-0.7.7, 最后 setup.py install.装完了.xlwt同理. 应用 (1)xlrd import xlrd

Win7下Python WEB环境搭建

环境介绍: Win7 64位 SP1 Python:2.7.6 网关接口:flup Nginx安装:http://blog.csdn.net/jacson_bai/article/details/46388775 Djang安装:http://blog.csdn.net/jacson_bai/article/details/41823945 1.flup安装参考链接: http://www.saddi.com/software/flup/dist/ http://wiki.nginx.org/

Win7下Eclipse中文字体太小

最近新装了Win7,打开eclipse3.7中文字体很小,简直难以辨认.在网上搜索发现这是由于Eclipse 3.7 用的字体是 Consolas,显示中文的时候默认太小了. 解决方式有两种:一.把字体设置为Courier New 操作步骤:打开Elcipse,点击菜单栏上的“Windows”——点击“Preferences”——点击“Genneral”——点击“Appearance”——点击“Colors and Font”——在右侧框展开“Basic”文件夹--双击“Text Font

win7下zend studio5.5中文乱码解决方法

win7下zend studio5.5中文乱码解决方法 1.打开 C:Documents and SettingsAdministratorZDEconfig_5.5desktop_options.xml(这个地址要根据自己的电脑而定.) 2.查找 editing.encoding 3.修改里面为 <encoding name=”UTF-8″/> 4.保存,并将该文件属性设置为只读,否则zend每次启动都会将 desktop_options.xml 初始化 5.重启 zend 注意,你现在打开

Win7下安装依赖lxml的python插件

博主python菜鸟,本想在win7下安装一个pyquery玩玩爬虫,折腾了好几天终于搞好了,发现python这坑不是一般的深啊. 有一部分没有截图,请谅解 python版本3.4 1.下载easy_install和pip,这步跳过,python 3.X默认自带 2.尝试用pip pyquery install,出现断开连接错误:这种pip在线下载一般用外国网站,目测被墙了 3.好吧,既然有人墙通常就有镜像,果然看网站 http://topmanopensource.iteye.com/blog

解决linux系统下python中的matplotlib模块内的pyplot输出图片不能显示中文的问题

问题: 我在ubuntu14.04下用python中的matplotlib模块内的pyplot输出图片不能显示中文,怎么解决呢? 解决: 1.指定默认编码为UTF-8: 在python代码开头加入如下代码 import sys reload(sys) sys.setdefaultencoding('utf-8') 2.确认你ubuntu系统环境下拥有的中文字体文件: 在终端运行命令"fc-list :lang=zh",得到自己系统的中文字体命令输出如下: /usr/share/fon

windows下Python打开包含中文路径名文件

windows使用gbx(gb2312,gbk,gb18030我也不知道是哪个)对文件名及文件路径进行编码保存.打开文件的函数中使用诸如open(filename.encode('gbk'))可以很好的解决. #coding:utf8 if __name__ == '__main__': srcfile = r"D:/测试路径/测试文件.txt" f = open(srcfile.decode('utf8').encode('gbk')) for text in f.readlines

记录一次cefsharp1输入法在win7下异常解决定位

最近几天都被基于cefSharp封装的浏览器控件搞疯了!对于cefSharp基本满足当前所做项目的需求,但是有一个问题一直困扰我,那就是系统中偶尔会出现输入法不能转换到中文.而且这个问题似乎没有什么规律. [项目需求] 先说一下项目对浏览器控件的需求,如果没有需要做听音这个功能,其实项目可以是一个B/S架构.但是由于现在需要听音功能,所以决定使用C/S的架构.其中客户端采用浏览器控件来实现网页加载.客户端主窗口内嵌一个浏览器控件,然后页面有需要听音的时候可以点击听音然后弹出听音窗口.听音窗口又是