字符编码乱码问题(servlet底层 编码大揭秘)

好多初学者会遇到,请求过去的信息内包含中文(一般会是get方式提交过去的请求会出现)。好郁闷,这是为什么呢。有下面分析下,说的不好可以吐槽

话说我们能遇到这种编码的问题,归根结底就是这  这
web开发不是中国人开发的,中国文化博大精深,四大发明渊源流传,可惜,我们太自己为是了,来了个闭关锁国政策,弄得中国跟不上时代的步伐,不潮了,落伍了,互联网时代被西方人抢了个先,发明了,我们只能用别人的了。我们也知道,西方讲的是英语,所以他们采用的编码格式是iso-8895-1。而这
 这种编码方式只占两个字节,不适合我们中文(不光是中文,其他的语言也不怎么支持,嘿嘿),所以,为了世界各国的语言都支持,Ken
Thompson(有一外国人,where is
中国人),发明了utf-8编码格式,是可变长度字符编码的万能码(又有多少真正被堪称万能的,牛)。其中,中文占3个字节。所以
 所以想服务器发送请求的时候,get方式都要转码。

废话不多说,正题例子才霸气。


package com.servlet;

import java.io.IOException;

import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;

public class Register extends HttpServlet
{
@Override
protected void doGet(HttpServletRequest req, HttpServletResponse resp)
throws ServletException, IOException
{
process(req, resp);
}

@Override
protected void doPost(HttpServletRequest req, HttpServletResponse resp)
throws ServletException, IOException
{
process(req, resp);
}

public void process(HttpServletRequest req, HttpServletResponse resp)
throws ServletException, IOException
{
req.setCharacterEncoding("UTF-8");
resp.setContentType("text/html");

String usernmae = req.getParameter("username");
String gender = req.getParameter("gender");
String[] interest = req.getParameterValues("interest");
String address = req.getParameter("address");
String connent = req.getParameter("connent");

usernmae = new String(usernmae.getBytes("iso-8859-1"),"UTF-8");//字符的解码和转码,iso-8859-1代表的2个字节大小,utf-8各个国家中的
gender = new String(gender.getBytes("iso-8859-1"),"UTF-8");
connent = new String(connent.getBytes("iso-8859-1"),"UTF-8");
address = new String(address.getBytes("iso-8859-1"),"UTF-8");

System.out.println(usernmae);
System.out.println(gender);
System.out.println(interest.length);
System.out.println(address);
System.out.println(connent);
}
}


<%@ page language="java" contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta content="">
<title>Insert title here</title>
<script type="text/javascript">
function validate()
{
var username = document.getElementsByName("username")[0];
if(username.value.length < 1)
{
alert("用户名不能为空");
}

var gender = document.getElementsByName("gender");
if(!gender[0].checked && !gender[1].checked)
{
alert("请选择性别");
}

var interest = document.getElementsByName("interest");

var n = 0;
for(var i = 0; i < interest.length; i++)
{
if(interest[i].checked)
n++;
}
if(n < 1)
{
alert("兴趣至少选择一个");
}
var address = document.getElementsByName("address");

}
</script>
</head>
<body>

<form action="Register">
用户名:<input name="username" type="text"><br>
性别:男<input type="radio" value="男" name="gender">&nbsp;&nbsp;&nbsp;女<input type="radio" value="女" name="gender">
<br>
兴趣:足球<input type="checkbox" name="interest" value="足球">&nbsp;&nbsp;
蓝球<input type="checkbox" name="interest" value="篮球">&nbsp;&nbsp;
羽毛球<input type="checkbox" name="interest"value="羽毛球">&nbsp;&nbsp;
拍球<input type="checkbox" name="interest" value="排球">&nbsp;&nbsp;<br>
地址:<select name="address">
<option value="上海">上海</option>
<option value="天津">天津</option>
<option value="济南">济南</option>
<option value="德州">德州</option>
</select>
<br>说明:<textarea name="connent" rows="15" cols="20"></textarea><br>
<input type="submit" onclick="validate()" value="充值">
&nbsp;</form>
</body>
</html>

usernmae = new String(usernmae.getBytes("iso-8859-1"),"UTF-8");
理解,usernmae.getBytes("iso-8859-1")就是以iso-8859-1的方式得到username。然后新建一个string类型的字符串,将其编码格式定位utf-8,就完活了,简单不,不过,还是那句话,为什么web不是中国人发明的。让老外也尝尝编码的苦楚。

字符编码乱码问题(servlet底层 编码大揭秘),布布扣,bubuko.com

时间: 2024-10-16 03:04:46

字符编码乱码问题(servlet底层 编码大揭秘)的相关文章

servlet请求编码与响应编码问题(编码不一致可能会导致乱码)

html中的编码 <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">这里不设置成中文编码无法写中文. jsp中的编码 <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> conte

java字符集编码乱码问题

博客分类: web javajspservlet 最近做网页这块时碰到了正文字符乱码问题.别看这小小的一个问题,对我来说却花费了好长一段时间.现在让我慢慢分析它吧(说实话.这些有部分是从网上找的,但都是自己亲自打出来的.这样对自己来说不仅理解了而且还加深了印象).  在java内部运算中.涉及到所有字符串都会被转化UTF-8编码来运算,然而.在被java转化之前,字符串是怎么样的字符集呢?其实java总是根据操作系统的默认编码字符集来决定字符串的初始编码的:而且java系统的输入输出都是采取操作

servlet的编码原理

编码问题: 在介绍编码问题前,先介绍一下java平台(JVM)上的编码转化情况.首先要说明的一点,在JVM中,即java平台上,运行的程序一定都是Unicode编码方式的.对于代码中的字符串常量,根据代码页的设置,转化为Unicode编码.对于输入,在输入进程序中JVM已经把输入的内容根据原先输入的编码方式转化为Unicode.若未指明,则是用系统默认的编码方式去转化为Unicode.对于输出,则是把Unicode编码按指定的编码方式输出,未指明则按系统默认编码输出. 编码问题出现的位置: 1.

你不知道的 字符集和编码(编码字符集与字符集编码)

我的上篇文章,有朋友提出字符集和编码的区别,我在此立文和大家讨论下 常说的字符集和编码区别,其实就是编码字符集和字符集编码的区别,其实,单单如果只是说字符集,没有任何编码的概念的话,那么字符集其实仅仅是一个简单的字符的集合,或者说是一个抽象的字符的集合,包括文字,符号等等,不参与任何存储形式,只是存在这么各种各样标准的字符的集合 如果仅仅是抽象的字符集,我们是无需拿出讨论的,因为没有任何异议,通俗易懂,而常说的字符集指的编码字符集,比如常见的 unicode.ascii.gb2312.gbk等,

tomcat乱码原因--基本的编码问题

tomcat乱码原因:在学习servlet时候,经常会遇到中文乱码的问题,网上查只知道如何设置不乱码,其中的原理不是很明白.我认为明白其中的原理,乱码问题就很容易解决 tomcat乱码解决方法: post请求: request.setCharacterEncoding("utf-8"); 如果不想每个请求方法里都写就写一个filter过滤器 get请求: 1.修改tomcat中的server.xml文件 <Connector port="8080" maxTh

Java web中常见编码乱码问题(二)

根据上篇记录Java web中常见编码乱码问题(一), 接着记录乱码案例: 案例分析:   2.输出流写入内容或者输入流读取内容时乱码(内容中有中文) 原因分析: a. 如果是按字节写入或读取时乱码,应该先检测系统编码是什么样的,看看是否支持中文编码的字符集. System.out.println(System.getProperty("file.encoding")); a1.如果是不支持中文的就要设置jvm编码了,设置方法: Windows环境就在catalina.bat配置: s

PHP乱码问题,UTF-8乱码常见问题小结 linux-windows 文件编码乱码问题

一.HTML页面转UTF-8编码问题 1.在head后,title前加入一行: <meta http-equiv='Content-Type' content='text/html; charset=utf-8' /> 顺序不能错,一定要在 显示的标题有可能是乱码! 2.html文件编码问题: 点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8, 如果是ANSI,需要将编码改成:UTF-8. 3.HTML文件头BOM问题: 将文件从其他的编码转换

Base64编码为什么会使数据量变大?

当把byte[]通过Convert.ToBase64String转换成Base64编码字符串时数据量明显变大,为何呢?这里就得先探究一下什么是Base64编码. Base64编码的思想是是采用64个基本的ASCII码字符对数据进行重新编码.它将需要编码的数据拆分成字节数组.以3个字节为一组.按顺序排列24位数据,再把这24位数据分成4组,即每组6位.再在每组的的最高位前补两个0凑足一个字节.这样就把一个3字节为一组的数据重新编码成了4个字节.当所要编码的数据的字节数不是3的整倍数,也就是说在分组

Tomat &amp;servlet字符集编码问题

1.字符编码的原由 1.1 request和response的默认编码是? 如果未指定字符编码,则Servlet规范要求使用ISO-8859-1的编码. HTTP消息正文(请求或响应)的字符编码在Content-Type头字段中指定. 如Content-Type:text / html; charset = ISO-8859-1明确声明正在使用默认值(ISO-8859-1).见HTTP 1.1 Specification, Section 3.7.1最后一段. JSP规范进一步指定了JSP页面的