十六进制Unicode编码字符串与中文字符串的相互转换

图书馆客户端项目中遇到的一个问题，得到的URL 是这样的

 String baseurl =   "http://innopac.lib.xjtu.edu.cn/availlim/search~S1*chx?/X{u848B}{u4ECB}{u77F3}&searchscope=1&SORT=DZ/X{u848B}{u4ECB}{u77F3}&searchscope=1&SORT=DZ&extended=0&SUBKEY=%E8%92%8B%E4%BB%8B%E7%9F%B3/51%2C607%2C607%2CB/browse"

如果直接使用此URL发送httpget请求，会报异常：非法字符。即URL中不能包含有{}

{}括号中到底是什么内容，最后发现是汉字的十六进制Unicode编码，上面的{u848B}{u4ECB}{u77F3}便是汉字“蒋介石”。

这就需要将十六进制Unicode编码字符串转成中文字符串了。具体代码如下：

/**
	 * 把中文字符串转换为十六进制Unicode编码字符串
	 *
	 * @param s
	 *            中文字符串
	 * @return
	 */
	public static String stringToUnicode(String s) {
		String str = "";
		for (int i = 0; i < s.length(); i++) {
			int ch = (int) s.charAt(i);
			if (ch > 255)
				str += "\\u" + Integer.toHexString(ch);
			else
				str += "\\" + Integer.toHexString(ch);
		}
		return str;
	}

	/**
	 * 把十六进制Unicode编码字符串转换为中文字符串, 将\u848B\u4ECB\u77F3转化成蒋介石，注意格式
	 *
	 * @param str
	 *            eg:\u848B\u4ECB\u77F3
	 * @return 蒋介石
	 */
	public static String unicodeToString(String str) {

		Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");

		Matcher matcher = pattern.matcher(str);

		char ch;

		while (matcher.find()) {

			ch = (char) Integer.parseInt(matcher.group(2), 16);

			str = str.replace(matcher.group(1), ch + "");

		}

		return str;

	}

然后处理这个URL，思路也很简单，首先将URL中的“}”替换成“”，然后将“{”替换成“\\”,然后便是将其中的\u848B\u4ECB\u77F3转成汉字

<pre name="code" class="java">/**
	 * 替换掉URL中的{}为\,然后将其中的Unicode 转成汉字
	 *
	 * @param baseUrl
	 *            String baseurl =
	 *            "http://innopac.lib.xjtu.edu.cn/availlim/search~S1*chx?/X{u848B}{u4ECB}{u77F3}&searchscope=1&SORT=DZ/X{u848B}{u4ECB}{u77F3}&searchscope=1&SORT=DZ&extended=0&SUBKEY=%E8%92%8B%E4%BB%8B%E7%9F%B3/51%2C607%2C607%2CB/browse"
	 *            ;
	 * @return
	 */
	public static String replaceUni2Chinese(String baseUrl) {

		Log.d(TAG, "原始URL-->" + baseUrl);
		if (baseUrl.contains("{")) {

			Log.d(TAG, "原始URL中包含汉字");

			String removeLast = baseUrl.replace("}", "");
			// System.out.println("去除后括号-->" + removeLast);

			String replaceBefore = removeLast.replace("{", "\\");
			// System.out.println("替换前括号-->" + replaceBefore);

			String result = unicodeToString(replaceBefore);
			Log.d(TAG, "unicode转成字符串后：-->" + result);

			return result;
		} else {
			Log.d(TAG, "原始URL中没有汉字");
			return baseUrl;
		}

	}

时间： 2024-11-10 11:18:13

十六进制Unicode编码字符串与中文字符串的相互转换的相关文章

c# 实现获取汉字十六进制Unicode编码字符串

1. 汉字转十六进制UNICODE编码字符串 /// <summary> /// //// /// </summary> /// <param name="character"></param> /// <returns></returns> public string CharacterToCoding(string character)

java 中文转换成Unicode编码和Unicode编码转换成中文

转自:一叶飘舟 http://blog.csdn.net/jdsjlzx/article/details/7058823 package lia.meetlucene; import java.io.IOException; import org.apache.lucene.index.CorruptIndexException; public class Unicode { public static void main(String[] args) throws CorruptIndexEx

Python3的unicode编码转换成中文问题

Python3的unicode编码转换成中文问题从别的地方搬过来的,担心以后不容易搜索到,就收集过来. 我当时面临的问题是要从C++发json代码出来,用python写了个server,然后返回给C++程序,结果收到的是:httpSvrDataCbUser: {"tranNO": "0808ad498670dc996", "data": "\u65b0A1EY16", "ver": "1.0&q

app开发历程————服务器端生成JSON格式数据，采用Unicode编码，隐藏中文

今天,问以前的同事,他们写接口按什么编码,怎么看到有\u的一些看不懂的内容,一问,原来是信息隐藏,防止信息泄漏. 然后在网上查了Java如何把中文转换成unicode编码,转自:http://blog.csdn.net/sunmenggmail/article/details/27539023 1 package mobi.chenwei.wing.util; 2 3 public class CharacterSetToolkit { 4 5 /** 6 * @param args 7 */

C# 如何将字符串形式的” \\u1234 “ 为 “ \u1234” 的unicode编码解码为中文

using System.Text.RegularExpressions; decodedStr = Regex.Unescape(escapeUnicodeStr);

Unicode编码：保存中文cookie

中文和英文字符不同,中文属于Unicod字符,在内存中站4个字符,而英文属于ASCII字符,内存中只占2个字符.Cookie中使用Unicode字符时需要对Unicode字符进行编码,否则会乱码.编码使用java.net.URLEncoder类的encode(String str,String encoding)方法,解码使用java.net.URLDecoder类的decode(String str,String encoding)方法. <%@ page language="java&

jmeter响应信息unicode 编码转成中文

在jmeter 发送请求过程中,有时候后台返回的是unicode 代码,如: {"status":-1,"msg":"\u63d0\u4ea4\u6570\u636e\u4e0d\u8db3"} 手动转换成中文为: {"status":-1,"msg":"提交数据不足"} 需要使用jmeter 把响应内容转换成中文显示,方便查看.思路是使用bean shell 把unicode响应结果转

python中的字符串编码问题——2.理解ASCII码、ANSI码、Unicode编码、UTF-8编码

ASCII码:全名是American Standard Code for Information Interchange,ASCII码中,一个英文字母(不分大小写)占一个字节的空间,范围0x00~0x7f,即0-128. ANSI码:ANSI编码是一种对ASCII码的拓展.ANSI编码用0x00~0x7f 范围的1 个字节来表示 1 个英文字符,超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符.前126个与ASCII码相同,之后的字符全是某个国家语言的所有字符.容量2的16次

php中计算中文字符串长度、截取中文字符串

在做PHP开发的时候,由于我国的语言环境问题,所以我们常常需要对中文进行处理.在PHP中,我们都知道有专门的mb_substr和mb_strlen函数,可以对中文进行截取和计算长度,但是,由于这些函数并非PHP的核心函数,所以,它们常常有可能没有开启.当然,如果是用的自己的服务器,则只要在php.ini中开启即可.如果是用的虚拟主机,而服务器又没有开启这方面的函数的话,那就需要我们自己写出点适合咱国情的函数来了. 以下几个函数用起来颇为顺手的.不过要知道,得在utf-8环境下使用. header