Unicode转义(\uXXXX)的编码和解码

在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n \r同属于转义字符. 在其他语言中也有类似的, 可能还有其它变形的格式.

多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.

下文会提供Javascript C# Java三种语言下不同方法的实现和简单说明, 会涉及到正则和位运算的典型用法.

Javascript的实现

解码的实现

function decode(s) {
    return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, ‘%$1‘));
}

unescape是用来处理%uXXXX这样格式的字符串, 将\uXXXX替换成%uXXXX后unescape就可以处理了.

编码的实现

function encode1(s) {
    return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
        return $1 && ‘\\‘ + $1.toLowerCase() || unescape($2);
    });
}

和解码中相对应, 使用escape编码, 然后将%uXXXX替换为\uXXXX, 因为escape还可能把一些字符编码成%XX的格式, 所以这些字符还需要使用unescape还原回来.

escape编码结果%uXXXX中的XXXX是大写的, 所以后面的replace只处理大写的A-F.

另一种编码的实现

不使用正则和escape

function encode2(s) {
    var i, c, ret = [],
        pad = ‘000‘;
    for (i = 0; i < s.length; i++) {
        c = s.charCodeAt(i);
        if (c > 256) {
            c = c.toString(16);
            ret[i] = ‘\\u‘ + pad.substr(0, 4 - c.length) + c;
        } else {
            ret[i] = s[i];
        }
    }
    return ret.join(‘‘);
}

遍历字符串中的字符, 那些charCode大于256的会转换成16进制字符串c.toString(16), 如果不足4位则左边补0pad.substr(0, 4 - c.length). 结尾将遍历的结果合并成字符串返回.

时间： 2024-10-12 13:29:24

Unicode转义(\uXXXX)的编码和解码

Javascript的实现

解码的实现

编码的实现

另一种编码的实现

Unicode转义(\uXXXX)的编码和解码的相关文章

Unicode转义(\uXXXX)的编码和解码【转】

字符的编码与解码

了解URL编码的基本概念，在javascript和java程序中使用内置的API进行编码和解码

python的编码与解码

Python学习笔记八：文件操作（续），文件编码与解码，函数，递归，函数式编程介绍，高阶函数

http协议中的编码和解码

python中base64编码与解码

JavaScript字符集编码与解码

Javascript编码与解码函数