RFC3986编码 C 语言实现(支持大部分中文)

　　前些时间做 xauth
认证程序的编写,网上找到RFC3986编码不支持中文的编码,所以便查找了一些资料.自己写了一个,代码如下.

#include <stdlib.h>

#include <string.h>

#include <stdio.h>

#include <android/log.h>

#include "RFC3986Encoder.h"
bool isReverseChar(char c);

char* charToHexString(char c);

bool isChinese(char c);
//#define snprintf _snprintf

/**

 * Escape ‘string‘ according to RFC3986 and

 * http://oauth.net/core/1.0/#encoding_parameters.

 *

 * @param string The data to be encoded

 * @return encoded string otherwise NULL

 * The caller must free the returned string.

 */
static void *xmalloc_fatal(size_t size) {

  if (size==0) return NULL;

  fprintf(stderr, "Out of memory.");

  exit(1);

}
void *xrealloc (void *ptr, size_t size) {

  void *p = realloc (ptr, size);

  if (p == NULL) return xmalloc_fatal(size);

  return p;

}
void *xmalloc (size_t size) {

  void *ptr = malloc (size);

  if (ptr == NULL) return xmalloc_fatal(size);

  return ptr;

}
char *xstrdup (const char *s) {

  void *ptr = xmalloc(strlen(s)+1);

  strcpy((char *)ptr, s);

  return (char*)ptr;

}
char *oauth_url_escape(const char *string) {

  size_t alloc, newlen;

  char *ns = NULL, *testing_ptr = NULL;

  unsigned char in;

  size_t strindex=0;

  size_t length;
if (!string) return xstrdup("");
alloc = strlen(string)+1;

  newlen = alloc;
ns = (char*) xmalloc(alloc);
length = alloc-1;

  while(length--) {

    in = *string;
switch(in){

    case ‘0‘: case ‘1‘: case ‘2‘: case ‘3‘: case ‘4‘:

    case ‘5‘: case ‘6‘: case ‘7‘: case ‘8‘: case ‘9‘:

    case ‘a‘: case ‘b‘: case ‘c‘: case ‘d‘: case ‘e‘:

    case ‘f‘: case ‘g‘: case ‘h‘: case ‘i‘: case ‘j‘:

    case ‘k‘: case ‘l‘: case ‘m‘: case ‘n‘: case ‘o‘:

    case ‘p‘: case ‘q‘: case ‘r‘: case ‘s‘: case ‘t‘:

    case ‘u‘: case ‘v‘: case ‘w‘: case ‘x‘: case ‘y‘: case ‘z‘:

    case ‘A‘: case ‘B‘: case ‘C‘: case ‘D‘: case ‘E‘:

    case ‘F‘: case ‘G‘: case ‘H‘: case ‘I‘: case ‘J‘:

    case ‘K‘: case ‘L‘: case ‘M‘: case ‘N‘: case ‘O‘:

    case ‘P‘: case ‘Q‘: case ‘R‘: case ‘S‘: case ‘T‘:

    case ‘U‘: case ‘V‘: case ‘W‘: case ‘X‘: case ‘Y‘: case ‘Z‘:

    case ‘_‘: case ‘~‘: case ‘.‘: case ‘-‘:

      ns[strindex++]=in;

      break;

    default:

      newlen += 2; /* this‘ll become a %XX */

      if(newlen > alloc) {

        alloc *= 2;

        testing_ptr = (char*) xrealloc(ns, alloc);

        ns = testing_ptr;

      }
//转换成16进制.  58-->3A

      //%3A  这是3个.这里好像是自动  加 ‘/0‘  如果生成的的字符串,大于4则不会,自动加/0

      //在linux 下,这个方法,的count 包括  ‘/0‘所以最后的结果也是正确的.
int result = snprintf(&ns[strindex], 4, "%%%02X", in);
/*

      printf("%d\n",result);
printf("%d\n",in);
printf("strlen(buf) = %d\n",strlen(ns));

      printf("%s\n",ns);

      */
strindex+=3;

      break;

    }

    string++;

  }

  ns[strindex]=0;

  return ns;

}
#ifndef ISXDIGIT

# define ISXDIGIT(x) (isxdigit((int) ((unsigned char)x)))

#endif
//自己写的代码  3

char* rfc3986Encoder(const char* input)

{

    //__android_log_print(ANDROID_LOG_INFO, "Test_jni","encoder start %s\n", input);
if (!input) return xstrdup("");
//char* sb = (char*)malloc(1024);

    char* sb = new char[1024];

    sb[0]= ‘\0‘;

    int length =  strlen(input);

    for (int i = 0; i<length; i++)

    {

        char c = input[i];

        if(isReverseChar(c)){

            const char* temp;

            if(isChinese(c))

            {

                //这里认为汉字 utf-8为三字节,首位为连续三个1,取unicode的后8位

                //这里相于 utf-8 到 unicode 的转换,只是转换了后8位.

                int high = (input[i+1]&0x03)<<6;

                int low = input[i+2]&0x3f;

                char chinese = (high+low)&0xff;

                temp = charToHexString(chinese);

                i+=2;

            }else{

                temp = charToHexString(c);

            }

            strcat(sb,temp);

        }

        else{

            int len = strlen(sb);

            const char*  p =  &c;  //字符看不到结束符,所以会错.

            strcat(sb,p);

            sb[len+1] = ‘\0‘;

        }

    }

    //__android_log_print(ANDROID_LOG_INFO, "Test_jni","encoder end  %s\n", sb);

    return sb;

}
bool isReverseChar(char c)

{

    return !((c >= ‘a‘ && c <= ‘z‘) || (c >= ‘A‘ && c <= ‘Z‘) || (c >= ‘0‘ && c <= ‘9‘)

                    || c == ‘-‘ || c == ‘_‘ || c == ‘.‘ || c == ‘~‘);

}
char* charToHexString(char src){

   int v = src & 0xFF;

   char* hv = new char[4];

   snprintf(hv, 4,"%%%02X",v);

   return hv ;

}

bool isChinese(char c)

{

    int x = c&0xE0;

    if(x == 224)

        return true;

    else

        return false;

}

如程序中体现的,oauth_url_escape() 这个方法不支持对中文的编码
,所以我便另外写了个方法 rfc3986Encoder().如程序中所说,我这里认为UTF8 汉字为 3
byte ,所以已经包含了大部分的汉字.具体的参考资料当时没做笔记,大该就是关于 UTF8 汉字编码的问题.程序思想,也比较好懂.研读java
的RFC3986编码实现,发现其获取utf8汉字的编码实际为unicode 编码的后8位.所以我这里把 utf8 向 unicode
编码的转化,只取了后8位,再转换成 hex 的形式.代码我做了部分测试,目前还没有发现什么问题.

RFC3986编码 C 语言实现(支持大部分中文),布布扣,bubuko.com

时间： 2024-10-27 08:44:53

RFC3986编码 C 语言实现(支持大部分中文)

RFC3986编码 C 语言实现(支持大部分中文)的相关文章

解决IE9支持CSS中文字体经验篇

Cassandra在CQL语言层面支持多种数据类型

用JIRA管理你的项目——（二）JIRA语言包支持及插件支持

Qt学习笔记-嵌入式qt程序支持显示中文

utf-8页面展示 gbk编码的js，gbk中有中文

一个GO语言的文档中文译本网站

Apache服务之php/perl/cgi语言的支持

Linux下MySQL 5.5的修改字符集编码为UTF8（彻底解决中文乱码问题）

iOS 10.3 APFS 不支持大部分的非英文字符解决方案