最近开发遇到一个bug,异常日志为:nested exception is org.codehaus.jackson.JsonParseException: Invalid UTF-8 start byte 0xbc,从日志上可以看出,springMVC在解析json数据时,发现json数据不是utf-8的格式,这样的结果让我百思不得其解,于是经历下如下的一系列尝试,花了半天时间,才解决这个bug。
背景:
已经在web.xml中配置了如下信息:
<!-- 保证请求为utf-8编码 --> <filter> <filter-name>encoding</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param-name> <param-value>UTF-8</param-value> </init-param> <init-param> <param-name>forceEncoding</param-name> <param-value>true</param-value> </init-param> </filter> <filter-mapping> <filter-name>encoding</filter-name> <url-pattern>/*</url-pattern> </filter-mapping>
1、怀疑是客户端请求时,body中的数据没有使用utf-8编码
刚遇到这个问题时,是使用ajax进行的请求,代码如下:
$.ajax({ type:"POST", url: url, async:true, contentType: "application/json; charset=utf-8;", data: JSON.stringify(data), dataType: "json", success:callback, error:function(XMLHttpRequest, textStatus, errorThrown) { console.log("error:XMLHttpRequest = " + XMLHttpRequest.responseText); console.log("error:textStatus = " + errorThrown); console.log("error:errorThrown = " + errorThrown); } });
其中data的数据为:{"mobileId":"adea3fee77ef45949a82ab36ae83ec53","watchId":"9a4bc032ae564cc49bff5f976298de40","type":1,"salutation":"监护人"},当salutation修改为英文字符后,请求一切正常,由于这里对contentType的了解不够自信,不敢确定contentType中设置了charset=utf-8就保证了请求中,httpbody的编码就是utf-8编码,于是愚蠢的以为可能是JSON.stringify这个函数在序列化时,引起的编码问题,以为JSON.stringify序列化时,可以设置编码格式,大量百度后无果,以失败告终。
2、编写java应用程序,使用httpclient提交相同的请求
代码如下:
public static String doPost(String url, String body) { HttpClient hc = HttpClientBuilder.create().build(); HttpPost post = new HttpPost(url); post.addHeader("Content-Type", "application/json"); try { StringEntity stringEntity = new StringEntity(body,"UTF-8"); post.setEntity(stringEntity); } catch (Exception e) { e.printStackTrace(); } HttpResponse response = null; try { response = hc.execute(post); response.getStatusLine().getStatusCode(); String responseBody = EntityUtils.toString(response.getEntity()); System.out.println(responseBody); printHttpHeaders(response.getAllHeaders()); return responseBody; } catch (Exception e) { e.printStackTrace(); return null; } }
从代码中大家可以看到
StringEntity stringEntity = new StringEntity(body,"UTF-8");
因此,httpbody中的参数编码应该为utf-8编码才对,可惜的是,服务器依旧报相同的异常,不过在这次尝试中有意外的收获,当请求部署在linux系统上的tomcat服务器时,能成功,请求本机window上的tomcat服务器时,失败。
3、怀疑是服务器的问题,这次方向对了
带着这个疑惑,首先怀疑是不是tomcat上有什么配置,可以影响到springmvc的json解析,可惜的是,最终发现tomcat没有这方面的配置。既然是报的Invalid UTF-8 start byte 0xbc,那么只能确定在读取body的字符串时,getbytes()获取的字节值不对了。这个时候联想到,getbytes()的字符编码到底是由什么决定的呢?
我们知道,getbytes还有这个函数:getBytes(Charset charset),既然是这样,那么就是说java有一个默认的charset决定getbytes是什么编码。顺着这个思路,找到了Charset.defaultCharset(),将这个值输出发现,在window的tomcat上为:gbk,在linux上为utf-8,难怪在linux没有问题,在window上有问题,defaultCharset的值由jvm运行的环境有关系,而jvm的运行环境又由操作系统决定,估计jvm应该是取的操作系统的编码吧。
然而,在window上的eclipse中运行之前编写的java应用时,输出的确实utf-8,难道defaultCharset还不是有操作系统的编码决定的吗?这个问题在别人的博客中找到的答案,原因是在eclipse中运行时,这个受到了eclipse的影响,那tomcat中的jvm应该还是受操作系统影响的吧。
既然找到了原因,自然就能解决bug,下面是解决方案。
其实这个bug导致的原因在于我在filter中,对body数据重新包装了,主要是要在filter中过滤body中的数据,因此加了一个包装器,如果没有这个包装器,编码应该是没有问题的,filter中的包装器代码如下:
class BodyReaderHttpServletRequestWrapper extends HttpServletRequestWrapper { private final String bodyStr; public BodyReaderHttpServletRequestWrapper(HttpServletRequest request) throws IOException { super(request); // 将reader中的数据读取出来 BufferedReader reader = request.getReader(); StringBuffer buffer = new StringBuffer(); String line = null; while ((line = reader.readLine()) != null) { buffer.append(line); } bodyStr = buffer.toString(); } public String getBody() { return bodyStr; } @Override public BufferedReader getReader() throws IOException { return new BufferedReader(new InputStreamReader(getInputStream())); } @Override public ServletInputStream getInputStream() throws IOException { final ByteArrayInputStream bais = new ByteArrayInputStream(bodyStr.getBytes(<span style="color:#FF0000;">Charset.forName("utf-8")</span>)); return new ServletInputStream() { @Override public int read() throws IOException { return bais.read(); } }; } }
由于这里将body中的字节读取出来编程了bodystr,注意上面红色部分那行代码,之前有问题时,没有添加Charset.forName("utf-8"),那么由于在window上的默认编码为gbk,自然new ByteArrayInputStream(bodyStr.getBytes())中的byte编码为gbk,因此在调用filterChain.doFilter(servletRequest,
response)时,到达controller的body编码就为gbk,从而导致无法以utf-8的编码解析json数据了,因此这里加上红色部分代码,顺利解决问题。
这里顺带还有一个猜想,没有验证,springmvc调用对应的json库解析body数据时,因此是根据httpheader中的contentType中的charset决定的。