在涉及Web前端开发时, 有时会遇到\uXXXX
格式表示的字符, 其中XXXX
是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n
\r
同属于转义字符. 在其他语言中也有类似的, 可能还有其它变形的格式.
多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.
下文会提供Javascript C# Java三种语言下不同方法的实现和简单说明, 会涉及到正则和位运算的典型用法.
Javascript的实现
解码的实现
function decode(s) { return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, ‘%$1‘)); }
unescape
是用来处理%uXXXX
这样格式的字符串, 将\uXXXX
替换成%uXXXX
后unescape
就可以处理了.
编码的实现
function encode1(s) { return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) { return $1 && ‘\\‘ + $1.toLowerCase() || unescape($2); }); }
和解码中相对应, 使用escape
编码, 然后将%uXXXX
替换为\uXXXX
, 因为escape
还可能把一些字符编码成%XX
的格式, 所以这些字符还需要使用unescape
还原回来.
escape
编码结果%uXXXX
中的XXXX
是大写的, 所以后面的replace
只处理大写的A-F
.
另一种编码的实现
不使用正则和escape
function encode2(s) { var i, c, ret = [], pad = ‘000‘; for (i = 0; i < s.length; i++) { c = s.charCodeAt(i); if (c > 256) { c = c.toString(16); ret[i] = ‘\\u‘ + pad.substr(0, 4 - c.length) + c; } else { ret[i] = s[i]; } } return ret.join(‘‘); }
遍历字符串中的字符, 那些charCode
大于256的会转换成16进制字符串c.toString(16)
, 如果不足4位则左边补0pad.substr(0, 4 - c.length)
. 结尾将遍历的结果合并成字符串返回.
时间: 2024-10-12 13:29:24