utf-8 -> gbk

当 把一个utf-8编码的网页转成gbk编码时,这个字符就变成讨厌的问号了(例如: 文本前出现 ? )

处理方法,就是在字符串以GBK编码写出之前,把这个字符替换掉:

str = str.replace(‘\u00A0‘, ‘ ‘);

彻底而保险的方法是过滤所有GBK不能表示的字符:

str = str.replaceAll("[^\u4E00-\u9FA5\u3000-\u303F\uFF00-\uFFEF\u0000-\u007F\u201c-\u201d]", " ");

时间: 2024-08-28 07:27:05

utf-8 -> gbk的相关文章

关于解决乱码问题的一点探索之二(涉及Unicode(utf-16)和GBK)

    在上篇日志中(链接),我们讨论了utf-8编码和GBK编码之间转化的乱码问题,这一篇我们讨论Unicode(utf-16编码方式)与GBK编码之间转换的乱码问题.     在Windows系统自带的记事本中,我们按照图中所示使用Unicode编码保存.     在Visual Studio 2005中,单击"文件|高级保存选项"中选择Unicode-代码页1200. 文件中只有乱码与ASCII码     按照上一篇日志中的方法,我们使用WinHex软件查看文件的16进制数据,如

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbc in position 21: illegal multibyte sequence

Save the txt with UTF format and then open the file with f1 = open(path, encoding = 'utf') UnicodeDecodeError: 'gbk' codec can't decode byte 0xbc in position 21: illegal multibyte sequence

关于UTF-8、ASCII、Unicode、gbk、gb2312之间的关系的笔记

一直对于字符编码不是很清晰,只知道所有都sublime编辑文档时候设置:文档编码为UTF-8.PHP的header也就是浏览器http响应头显示UTF-8.HTML的meta信息也声明为UTF8.数据库字符集选择utf8.排序规则选择utf-8_ general_ci,但是一直不知道他们是什么来的,今天刷下百度百科:有一篇写的太好了: https://www.zhihu.com/question/23374078 以上总结就是 ASCII => GB2312 => GBK =>  Uni

qt中文格式GBK.UTF-8,unicode 之间的转换

QTextCodec *gbk = QTextCodec::codecForName("GB18030");QTextCodec *utf8 = QTextCodec::codecForName("UTF-8");QString g2u = gbk->toUnicode(m_pUserSpi.m_mapInstruments.find(str1.toStdString())->second->InstrumentName); QString as

java字符编码详解

引用自:http://blog.csdn.net/jerry_bj/article/details/5714745 GBK.GB2312.iso-8859-1之间的区别 GB2312,由中华人民共和国政府制定的,简体汉字编码规范,大陆所有计算机中的简体中文,都使用此种编码格式.目前,我也不知道还有另外的简体汉字编码规范.与此对应的还有BIG5,是中华民国政府制定的,繁体汉字的编码规范,一般应用于海外计算机的繁体中文显示.所谓的繁体中文Windows,简体中文Windows,指的就是采用BIG5和

程序中的字符编码

每个程序员都经历过字符乱码的困扰,经过一通折腾后,总算显示正常,但之后似乎还是时不时碰到乱码的问题. 当我们打开notepad或者ultraedit后,这些工具都会自带编码转换的选项,里面各种字符编码格式十分复杂,往往一头雾水. 这里不谈具体编码格式问题,这是一个很学究的话题.其实对于软件开发而言,除非专门做字符编码相关的软件,否则我们一般遇到的最多的也就那么几种字符编码,如utf和gbk.这里要说的是,当我们要考虑字符编码时,理解一个基本的场景模型,然后根据这个模型,在遇到乱码问题后就可以定位

JAVA基础学习day22--IO流四-对象序列化、管道流、RandomAccessFile、DataStream、ByteArrayStream、转换流的字符编码

一.对象序列化 1.1.对象序列化 被操作的对象需要实现Serializable接口 1.2.对象序列化流ObjectOutputStream与ObjectInputStream ObjectInputStream 对以前使用 ObjectOutputStream 写入的基本数据和对象进行反序列化. ObjectOutputStream 和 ObjectInputStream 分别与 FileOutputStream 和 FileInputStream 一起使用时,可以为应用程序提供对对象图形的

php 中文unicode 互转

/** * $str 原始中文字符串 * $encoding 原始字符串的编码,默认GBK * $prefix 编码后的前缀,默认"&#" * $postfix 编码后的后缀,默认";" */ function unicode_encode($str, $encoding = 'GBK', $prefix = '&#', $postfix = ';') { $str = iconv($encoding, 'UCS-2', $str); $arrstr

http请求中乱码------编码的转换

在http请求中如果包含了汉字,那么就会出现乱码,引文默认的编码是ISO的,为了正常的显示,需要将编码转化为UTF或者gbk,下面提供一个辅助类. import java.io.UnsupportedEncodingException; /** * 汉字转码的辅助类 * @date 2015-09-06 10:29:22 * @author geenkDC * */public class ISO2UTF{ public static String iso2utf(String isoStr){

IE下载出现中文乱码的问题

1.现象 2.解决方法一:对中文url进行urlencode编码 3.解决方法二:utf转gbk 4.修改后