pymssql读取varchar字段中文显示乱码的问题分析

问题

  用python的pymssql模块读取旧业务系统后台SQL Server 2000数据库展示数据为乱码

开发环境

  • 操作系统:windows 8
  • 数据库 MS SQL Server 2000,默认配置
  • python 2.7.6
  • pymssql 2.1.1
  • 开发工具:PyCharm 4.0

业务逻辑

  数据库的[rooms]表记录一些功能房间列表,与其他接口数据进行对比,然后输出对比结果。

  rooms表结构

CREATE TABLE [rooms] (
[id] [int] IDENTITY (1, 1) NOT NULL ,
[name] [varchar] (50) COLLATE Chinese_PRC_CI_AS NULL ,
PRIMARY KEY CLUSTERED ([id] ON [PRIMARY] ,
UNIQUE NONCLUSTERED ([des]) ON [PRIMARY]
) ON [PRIMARY]
GO

  模拟代码

# -*- coding: utf-8 -*-
import pymssql

rooms=None
with pymssql.connect(host=‘192.168.1.100‘,database=‘builds‘,
                     user=‘sa‘,password=‘password‘,
                   #  charset=‘utf8‘,
                     ) as conn:
    cur=conn.cursor()
    sql="select id,name from rooms"
    cur.execute(sql)
    rooms=cur.fetchall()
if rooms and isinstance(rooms,(list,tuple)):
    for room_id,room_name in rooms:
        print "\t".join([str(room_id),room_name])

  在通用环境中运行代码,room_name变量列显示乱码

问题分析

  1. 调整连接字符集
    首先想到的解决办法是,指定pymssql.connect参数charset的字符集值,使得内外数据编码一致。
    依据,“默认情况下,SQL Server 2000使用ISO字符集(代码页1252)。这个字符集也叫ISO-8859-1 Latin1 或者ANSI字符集。它和Windows9x及Windows NT/2000操作系统相兼容,提供了与大多数语言最大兼容性。SQL Server2000中还包含代码页936(简体中文),该字符集包含对简体中文支持的字符”,将charset设置为gbk或cp936,更为合适。查看pymssql使用文档,发现官方没有给出此参数可接收的实例字符串。进行猜测性调试:
    <charset=‘gbk‘>运行抛出异常:pymssql.OperationalError: (20017, ‘DB-Lib error message 20017, severity 9:\nUnexpected EOF from the server\nDB-Lib error message 20002, severity 9:\nAdaptive Server connection failed\n‘)
    <charset=‘cp936‘>调试模式下pymsql.connect无异常信息,但程序直接退出
    <charset=‘utf8‘>运行正常,输出依然乱码;不指定此参数值时,程序使用默认值‘UTF-8‘
    结论:此路不通
  2. 特定字符串调试
    使用PyCharm调试程序,选定特定room_name值,来进行分析

    # 注意此时输出标记为u,说明识别为unicode编码,正常时此时print出是真实值
    >>> room_name
    u‘\xbf\xec\xb5\xdd\xbc\xe4\xa3\xa8\xc3\xc5\xc4\xda\xa3\xa9‘
    # 打印原始值为乱码,所以怀疑实际存储的是被标记为unicode的其他编码
    >>> print room_name
    ¿ìµÝ¼ä£¨ÃÅÄÚ£©
    # 这时可以将引号内赋值,再使用chardet.detect()判断
    >>> aa=‘\xbf\xec\xb5\xdd\xbc\xe4\xa3\xa8\xc3\xc5\xc4\xda\xa3\xa9‘
    >>> aa
    ‘\xbf\xec\xb5\xdd\xbc\xe4\xa3\xa8\xc3\xc5\xc4\xda\xa3\xa9‘
    # 果然,检测出的结果是GB2312编码
    >>> chardet.detect(aa)
    {‘confidence‘: 0.99, ‘encoding‘: ‘GB2312‘}
    # 输出正常
    >>> print aa.decode(‘gb2312‘)
    快递间(门内)
    # 此时,需要unicode->encode(‘Latin1‘)->decode(‘GB2312‘)
    >>> room_name.encode(‘latin1‘).decode(‘GB2312‘)
    u‘\u5feb\u9012\u95f4\uff08\u95e8\u5185\uff09‘
    >>> print room_name.encode(‘latin1‘).decode(‘GB2312‘)
    快递间(门内)

解决办法

  pymssql基础实现使用的是cpython,从GitHub的官方代码文件_mssql.pyx,可以看到一些处理过程。使用strcpy函数对数据交换,因为对cpython不了解,怀疑是在处理双字节文字转码时的一点bug。

  这个问题有两个解决办法:

  1. 代码中显式转码
    方法:unicode变量.encode(‘latin1‘).decode(‘gbk‘),详细情况可以参考下方的“PYTHON-进阶-编码处理小结
    一般情况下对unicode编码不做encode处理,但必要时可以encode为Latin1,实现脱unicode操作,然后再以合适字符集decode为正确unicode

    print "\t".join([str(room_id),room_name.encode(‘latin1‘).decode(‘gbk‘)])
  2. 字符定义使用NVARCHAR
    这种方式在存储和读取时都使用unicode编码,和python运转字节码一致,可以很好避免此类问题。当然数据库存储空间要牺牲一些。

    [room_name] [nvarchar] (50) COLLATE Chinese_PRC_CI_AS NULL 

原文:这里

参考:

1)"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence"

2)水木社区:用pymssql的时候出现了很诡异的字符集问题

3)PYTHON-进阶-编码处理小结

时间: 2024-10-21 00:45:42

pymssql读取varchar字段中文显示乱码的问题分析的相关文章

linux下mysql中文显示乱码,读取又正常

今天发现linux中在shell中查看mysql数据库,中文显示乱码,但是取到网页中又是正常的. 解决方法1: 在第一次进入mysql时,加一句 set names utf8 //设置编码 解决方法2: 修改/etc/my.cnf文件: 在[client]下添加 default-character-set=utf8 在[mysqld]下添加 default-character-set=utf8 最后 /etc/init.d/mysql restart   重启即可

CString的中文显示乱码的解决办法

1.加头文件#include <locale.h> 2.在文件打开 CStdioFile file;    CFileException exp;之后加上:    char* old_locale=_strdup(setlocale(LC_CTYPE,NULL) );    setlocale( LC_CTYPE,"chs"); 3.在文件读取结束加上 setlocale( LC_CTYPE, old_locale ); //还原语言区域的设置    free( old_l

怎么解决Sublime Text 2中文显示乱码

Sublime Text 2中文显示乱码该怎么解决呢?其实解决问题的关键在于让Sublime Text 2支持GB2312和GBK.具体的步骤如下: 1.安装Sublime Package Control. 在Sublime Text 2上用Ctrl+-打开控制台并在里面输入以下代码,Sublime Text 2就会自动安装Package Control. import urllib2,os; pf='Package Control.sublime-package'; ipp=sublime.i

Qt开发中文显示乱码

Qt开发中文显示乱码 来源 https://www.jianshu.com/p/ed269df8104d 参考 https://blog.csdn.net/J_H_C/article/details/93882284 为什么会出现乱码 首先,我们需要有的概念是乱码的问题是由编码和解码方式引起的.涉及到编码方式的地方有3个: 源码字符集 执行字符集 运行环境字符集 源码字符集确切的说是编译器认为源码文件的编码方式,执行字符集是可执行程序采用的编码方式,而运行环境字符集则是环境支持的编码方式.编译程

Atom中文显示乱码问题 UTF-8

Atom中文显示乱码问题 本来就是UTF-8文件,但中文还是显示不了.换了GBK.GB18030也不行. 解决方法: 给atom编辑器设置字体 从菜单中打开 Edit->Open your config选项,或者Packages->Setting views->Open, 找到config.cson文件中的editor子项,或者setting views中的font-family选项,把字体设置成 文泉驿 系列字体才可以显示中文.比如: 文泉驿微米黑,文泉驛微米黑,WenQuanYi M

解决osgEarth中文显示乱码的几种方法

解决osgEarth中文显示乱码的几种方法 在此感谢那些在路上那个帮助过别人的朋友,谢谢. 方法一: 通过自己写函数转换类型. 下面这三个函数先复制过去吧. void unicodeToUTF8(const std::wstring &src, std::string& result) { int n = WideCharToMultiByte( CP_UTF8, 0, src.c_str(), -1, 0, 0, 0, 0 ); result.resize(n); ::WideCharT

Linux中文显示乱码?如何设置centos显示中文

Linux中文显示乱码?如何设置centos显示中文 怎么设置Linux系统中文语言,这是很多小伙伴在开始使用Linux的时候,都会遇到一个问题,就是终端输入命令回显的时候中文显示乱码.出现这个情况一般是由于没有安装中文语言包,或者设置的默认语言有问题导致的.以centos为例,操作Linux怎么查看语言,设置修改语言 1.查看当前系统语言 登陆linux系统打开操作终端之后,输入 echo $LANG可以查看当前使用的系统语言.如 2.查看安装的语言包 查看是否有中文语言包可以在终端输入 lo

ubuntu 中用vim打开txt等文件中文显示乱码的解决方法 &nbsp;

今晚用ubuntu 12.04 的vim编辑网页代码时,发现上面的中文显示乱码.这个html文件是我之前用gedit编辑的,在gedit里面显示正常,可是在vim下显示就是乱码了. 怎么解决ubuntu中vim显示中文乱码的问题呢? 首先,添加中文字符编码: sudo gedit /var/lib/locales/supported.d/local 在打开的文件中添加下面的中文字符集 zh_CN.GBK GBK zh_CN.GB2312 GB2312 zh_CN.GB18030 GB18030

解决Sublime Text 3中文显示乱码问题(转)

解决Sublime Text 3中文显示乱码问题(转) 1.打开Sublime Text 3,按Ctrl+-打开控制行,复制粘贴以下python代码,然后回车运行. 2. 复制并粘贴如下代码: import urllib.request,os,hashlib; h = '7183a2d3e96f11eeadd761d777e62404e330c659d4bb41d3bdf022e94cab3cd0'; pf = 'Package Control.sublime-package'; ipp = s