UTF-8编码的空格（194 160）问题

在UTF-8编码里面存在一个特殊的字符，其编码是“0xC2 0xA0”，转换成字符的时候表现为一个半角空格，跟一般的半角空格（ASCII 0x20）不同的是它的宽度不会被压缩，所以排版中常能用到它。但是GB2312、Unicode之类并没有这样的字符，所以转换后前台会显示为“?”号，只是显示为问号而不是真正的问号，所以无法被替换！

 1         static void Main(string[] args)
 2         {
 3             var tmp1 = "j j j j j j j";
 4             var tmp2 = "j?j?j?j?j?j";
 5             byte[] o1 = Encoding.UTF8.GetBytes(tmp1);
 6             byte[] o2 = Encoding.UTF8.GetBytes(tmp2);
 7             Console.WriteLine("Normal Encoding.GetBytes: {0}", BitConverter.ToString(o1));
 8             Console.WriteLine("Special Encoding.GetBytes: {0}", BitConverter.ToString(o2));
 9             Console.ReadKey();
10         }

　知道了这个原因之后，就好办了，写代码可以把194 和 160 的组合转换回去。程序（C#）如下所示：

        private string ChangeUTF8Space(string targetStr)
        {
            try
            {
                string currentStr = string.Empty;
                byte[] utf8Space = new byte[] { 0xc2, 0xa0 };
                string tempSpace = Encoding.GetEncoding("UTF-8").GetString(utf8Space);
                currentStr = targetStr.Replace(tempSpace, " ");
                return currentStr;
            }
            catch (Exception ex)
            {
                return targetStr;
            }
        }

参考：

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://www.cnblogs.com/mingmingruyuedlut/archive/2012/07/04/2575180.html

http://www.cnblogs.com/yank/p/3529395.html

时间： 2024-10-17 21:14:04

UTF-8编码的空格（194 160）问题的相关文章

文字编码ASCII，GB2312，GBK，GB18030，UNICODE，UCS，UTF的解析

众所周知,一个文字从输入到显示到存储是有一个固定过程的,其过程为:输入码(根据输入法不同而不同)→机内码(根据语言环境不同而不同,不同的系统语言编码也不一样)→字型码(根据不同的字体而不同)→存储码(根据保存的编码类型不同而不同).不同的存储码之间又有什么异同呢? 一.ASCII系列编码首先来说明ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),这个编码的时代就久远了,是由美国国家标准局(ANSI)制定,目

Atitit.软件开发概念(11)--网络子系统--url编码空格问题URLEncoder java js php

Atitit.软件开发概念(11)--网络子系统--url编码空格问题URLEncoder java js php 1. RFC2396标准 including HTML 4.01 section 17.13.4, and also RFC 1866 (which is supercededby the W3C HTML recommendations). 在form的ContextType是[x-www-form-urlencoded]的时候会对form中的键/值对进行编码,空格被转义成+,

C++哈夫曼树编码和译码的实现

一．背景介绍: 给定n个权值作为n个叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree).哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近. 二．实现步骤: 1.构造一棵哈夫曼树 2.根据创建好的哈夫曼树创建一张哈夫曼编码表 3.输入一串哈夫曼序列,输出原始字符三．设计思想: 1.首先要构造一棵哈夫曼树,哈夫曼树的结点结构包括权值,双亲,左右孩子:假如由n个字符来构造一棵哈夫曼树,则共有结点2n-1个:在构造前,先初始化

php 空格无法替换，utf-8空格惹的祸

一次坑爹的小bug.读取一段文字(编码utf-8),想替换掉空格,str_replace(" "..).preg_replace("/\s/"..)都不起作用. <?php // 替换<p>后4个空格 $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089"); $str = str_replac

php 去除变态空格字符方法，空格trim不掉问题解决思路

前言:今天过滤一段文本,后面有2个空格,用trim去不掉,用preg_match也去不掉,去网上翻阅了无数的方法,终于找到了非常好的一个解决方法.该文章来源于https://my.oschina.net/fffddgx/blog/196376 ,思路是 ,首先将字符分隔开,str_split, 然后循环每个字节查看他的编码,ord(); trim函数以php的trim 函数为例: 去除字符串首尾处的空白字符(或者其他字符) string trim ( string $str [

刨根究底字符编码之二——关键术语解释(下)

关键术语解释(下) 一.第1层抽象字符表ACR (Abstract Character Repertoire抽象字符清单):明确字符的范围(即确定支持哪些字符) 1. 抽象字符表ACR是一个编码系统支持的所有抽象字符的集合,可以简单理解为无序的字符集合,用于确定字符的范围,即要支持哪些字符. 抽象字符表ACR的一个重要特点是字符的无序性,即其中的字符并没有编排数字顺序,当然也就没有数字编号. 2. "抽象"字符不具有某种特定的字形,不应与具有某种特定字形的"具体"

精述字符编码（读这篇绝对不够）

带你了解ASCII,Latin1,ANSI,Unicode,UCS-2,UCS-4,UTF-8,UTF-16,UTF-32,GB2312,GB13000,GBK,GB18030,BIG5,BOM,BMP,Littile Endian,Big Endian,内码,外码,CodePage. 1.导语字符编码(Character Encoding)是计算机显示文本的基础,是每一位IT从业者必知的计算机基础知识点,如同数值在计算中如何存储表示,那么基础,那么重要.然因字符编码历史久远,变更频繁,地域差

字符编码转换笔记

何为字符编码? 字符编码为计算机文字的存储格式, 例如英文字母以ASCII编码存储, 即单字节存储, 其他字符编码有 UTF-8(通用字符编码格式), 其他区域性编码格式, 例如 ISO-8859(西欧), windows-1251俄文,中文GB编码. 为什么需要转换? 正因各个地区有不同的编码格式, 为了交换信息的目的, 就需要将相同字符的从一种编码格式转换为另外一种编码格式. 通用的编码格式为 UTF-8, 其囊括了世界上所有字符, 所以一般为了通用性, 文件都以UTF-8编

GBK编码和UTF-8编码互转的大坑

这几天遇到一个BUG,问题很简单,解决却花了3.4天,特意记录下来. linux环境下,将默认编码设置为GBK以后,运行GBK编码的脚本,调用一个Java的jar包,然后总jar包中返回GBK字符串.但是不知道是哪里出了问题,返回的参数一直是问号乱码. 放上脚本代码: #!/bin/bash #str="\"$1 $2 $3\"" str="\"http://iap.zh.gmcc.net/WebService/Notify.asmx chenl