中文转码问题总结

1. 编码基础知识

1.1 编码

ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号

单字节,即一个字节对应一个编码,不能编码汉字

1.2 GBK

1) 能编码汉字,一个汉字用2个字节编码

2) 编码的汉字比GB2312更多

1.3 GB2312

能编码汉字,一个汉字用2个字节编码

1.4 UTF-8

能编码汉字,一个汉字用3个字节编码

汉字,字母,特殊符号,gbk和utf-8之间是可以互相转换的

2. Web系统转换编码

2.1 原理

这里边有个编码和解码的过程

网络传输发送端需要将字符串编码成字节

可以是utf-8,gbk等,转换成字节的过程中不能丢失编码

接收端需要用发送端同样的编码方式进行解码,否则将出现乱码

一般由服务端确定一种编码和解码的方式,

然后告知客户端编码和解码的方式

网络传输编码

2.2.1 接收浏览器POST请求

设置浏览器编码和解码方式为utf-8

如:

<%@ page pageEncoding="utf-8" contentType="text/html; charset=utf-8" language="java"%>

服务端解码方式1:

String name = new String(request.getParameter("name").getBytes("ISO-8859-1"),"UTF-8");

服务端解码方式2:

request.setCharacterEncoding("UTF-8");
2.2.2 接收浏览器GET请求

如:

http://localhost:8888/webtest/EncodeServlet?name=你好

浏览器将会对url进行urlEncode,编码方式为UTF-8

服务端解码方式:

String name = new String(request.getParameter("name").getBytes("ISO-8859-1"),"UTF-8");

此处用request.setCharacterEncoding("UTF-8");来设置解码,不能奏效,原因是get请求将参数拼在url后面进行url encode,而web容器对url的解码是在调用servlet之前,且默认解码方式是iso-8859-1

2.2.3 响应给浏览器

Response设置编码:

Response是指响应给客户端时,字节的编码方式,默认为ISO-8859-1

可用如下方法查看:

response.getCharacterEncoding();

设置响应流的编码方式:

response.setCharacterEncoding("UTF-8");

设置浏览器的编码和解码方式:

response.setContentType("text/html;charset=UTF-8");

jsp设置:

<%@ page pageEncoding="utf-8" contentType="text/html; charset=utf-8" language="java"%>

pageEncoding:设置jsp文件存储编码

contentType里面的charset:设置浏览器端传输的编码和解码

解析响应时解码,发送请求时编码

要保持响应流和编码和浏览器解码方式一致,才能不乱码

2.2.4 HTTPClient设置编码

控制编码

Struts.xml中做如下配置:

<constant name="struts.i18n.encoding" value="utf-8"></constant>

2.4 Spring控制编码

Web.xml中配置如下:

<filter>

<filter-name>encodingFilter</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter

</filter-class>

<init-param>

<param-name>encoding</param-name>

<param-value>UTF-8</param-value>

</init-param>

<init-param>

<param-name>forceEncoding</param-name>

<param-value>true</param-value>

</init-param>

</filter>

其中encoding设置服务端编码和解码的方式

forceEncoding表示强制编码的方式

3. 字符串转字节转码

String s = "s汉";

byte[] bytes1 = s.getBytes("ISO-8859-1");//丢失字符

byte[] bytes2 = s.getBytes("GBK");

byte[] bytes3 = s.getBytes("UTF-8");

4. 字节转字符串

String s1 = new String(bytes1,"utf-8");//丢失

String s2 = new String(bytes2,"GBK");

String s3 = new String(bytes3,"utf-8");
时间: 2024-09-30 11:52:11

中文转码问题总结的相关文章

URL中文转码

  //Driver = Driver.Substring(0, Driver.Length - 1);//截取字符串                               Driver = Server.UrlEncode(Driver);//URL中文转码,Driver为中文                                 Response.Write("<script>window.open('http://.....:8075/WebReport/Rep

python 中文转码

最近在玩一些爬虫,python中文转码刚接触是一件麻烦的事(转换的原理省略) 一般来说有encode('gbk'),edcode('utf8'),decode('gbk'),decode('utf8')可以解决很大一部问题 但是今天遇到了'\\u6210\\u529f'这种格式,上面的三板斧就搞不定了 经过万能的度娘,发现了第一个贴子,叹为观止 http://bbs.chinaunix.net/thread-3674073-1-1.html 代码如下 #!/usr/bin/env python

JAVA编码(中文转码)问题总结

本章主要分析Java编码和解码的原理,以及中文转码存在的问题做个简单的总结 目录 1  编码基础知识 ISO-8859-1编码 GBK GB2312 UTF-8 2  WEB系统转换编码       原理 Servlet网络传输编码 Struts2 控制编码 Spring 控制编码 3 字符串转字节 4 字节转字符串 1 编码基础知识 ISO-8859-1编码 ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0

cookie中文转码

//cookie中文转码 var GB2312UnicodeConverter = { //转码 ToUnicode: function(str) { //中文转unicode return escape(str).toLocaleLowerCase().replace(/%u/gi, '\\u'); }, ToGB2312: function(str) { //unicode转中文 return unescape(str.replace(/\\u/gi, '%u')); } };

javascript中中文转码的方法

js对文字进行编码涉及3个函数: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent 1.   传递参数时需要使用encodeURIComponent,这样组合的url才不会被#等特殊字符截断.  例如: <script language="javascript"> document.write('<a href="http://passport

为什么 execute(`echo 中文`) 输出中文源码?

为什么 execute(echo 中文) 输出中文源码? import win.ui; /*DSG{{*/ var winform = win.form(text="管道演示";right=495;bottom=431;parent=...) winform.add( btnPing={cls="button";text="findstr";left=24;top=169;right=132;bottom=202;z=1}; edit={cls=

Qt开发中的实用笔记二--中文转码问题和string转换问题:

一,中文乱码转码问题 1,转码三句话:window下默认是GBK格式,linux下默认是UTF-8,看情况转换UTF-8/GBK QTextCodec::setCodecForTr(QTextCodec::codecForName("UTF-8")); QTextCodec::setCodecForLocale(QTextCodec::codecForName("UTF-8")); QTextCodec::setCodecForCStrings(QTextCodec

POST中文转码问题

//在 new StringEntity(params, "utf-8")指定为utf-8编码 try { HttpClient client = new DefaultHttpClient();  HttpPost httpPost = new HttpPost(url); //设置编码,防止中文传输乱码  StringEntity entity = new StringEntity(contentValue.toString(), "utf-8"); httpP

python使用subprocess获取命令行输入后中文转码问题

python使用subprocess模块可以方便的运行系统命令,并获取输入,但是当输出的内容中存在中文时返回的数据就是进行过编码后的,无法正常显示,因此要对其进行一下转码,过程如下: 首先,应该知道命令行使用哪种编码显示输出结果,在命令行中运行 chcp 命令来获取活动页代码,如:"活动页代码:936" MS-DOS为以下国家和语言提供字符集:  代码页描述  1258 越南语  1257 波罗的语  1256 阿拉伯语  1255 希伯来语  1254 土耳其语  1253 希腊语 

网络数据包发送工具PacketSender中文源码

在网上发现了一个好用的工具PacketSender,数据包发送器.对于写网络程序来说,有很大的便利性.虽然在linux下,netcat工具也很好用,但是这个也不错. 原本是英文的,给翻译了一下.这是基于QT开发的.有一些翻译不对的地方,还请指正. 本文由乌合之众 lym瞎编,欢迎转载 blog.cnblogs.net/oloroso本文由乌合之众 lym瞎编,欢迎转载 my.oschina.net/oloroso 下面是翻译后的源码包,下载地址 实际上是一个bzip包,因为博客园不支持bz2文件