字符串中的不可见字符应该如何清除?

在我的工作中,经常要做数据的导入导出,包括在程序上和直接在数据库上操作。由于客户提供的数据千差万别,很可能包含大量特殊的不可见的字符,如果直接导入到数据库中,可能会导致应用程序出现问题,或者数据库查询时出现意想不到的结果。这时,需要在导入过程中,把这些“杂质”先过滤掉,再导入到数据库中。当然也可以在数据库中操作,这就视实际情况而定了。

首先,如何在找到这些不可见的字符呢?用眼睛肯定是不行的,复制这些字符放到判断条件上?行不通。这时,ASCII(American Standard Code for Information Interchange),即美国标准信息交换代码帮上大忙。

Fiugre-1: ASCII表(此图片来源于百度)

Figure-2: ASCII表2

计算机上所有字符都是在ASCII基础上进行扩展编码的,比如英文字符“A”的十进制编码是65,中文的“中”字的十进制编码是20013。关于ASCII编码,计算机字符集等知识,可上网或查阅相关资料,这里不再赘述。不过关于数据库的字符集,也是一个非常值得探讨的话题,在以后的文章中再与大家分享下自己的经验。

从上面的图片ASCII码值表中得知,十进制的0至31和127这33个编码是不可见的特殊字符(控制符)。所以,只要想方法把这些字符替换掉即可。以下为实现的函数。

IF OBJECT_ID(N‘ufn_trim_invisible_code‘) IS NOT NULL
BEGIN
    DROP FUNCTION ufn_trim_invisible_code
END
GO
/*去掉字符串的不可见字符,包括去掉字符串两边的空格*/
/*如果字符串中间的空格也要去掉,把@ucode<=31修改为<=32即可*/
CREATE FUNCTION ufn_trim_invisible_code(@str NVARCHAR(MAX)=‘‘)
RETURNS NVARCHAR(MAX)
AS
BEGIN
DECLARE @char NVARCHAR(MAX)
DECLARE @ucode INT
DECLARE @str2 NVARCHAR(MAX)
DECLARE @c NVARCHAR(1)
DECLARE @i INT
SET @char = ‘‘ 
SET @str2 = RTRIM(LTRIM(@str))
SET @i = 1
WHILE @i <= LEN(@str2)
BEGIN    
    SET @c = SUBSTRING(@str2,@i,1)
    SET @ucode = UNICODE(@c)   
    SET @char = @char + CASE WHEN @ucode <= 31 OR @ucode = 127 THEN ‘‘ ELSE @c END
    SET @i = @i + 1
END
RETURN (@char)
END
GO
时间: 2024-10-19 17:07:45

字符串中的不可见字符应该如何清除?的相关文章

数组去重及排序/0~10随机数字/字符串中出现最多的字符及次数

数组去重及排序: var arr = [1,5,1,2,6,8,1,81,9,0]; for(var i=0;i<arr.length;i++){ for(var j=i+1;j<arr.length;j++){ if(arr[i] == arr[j]){ arr.splice(j,1); j--; } } } arr.sort(function(a,b){ return a-b; // 从小到大排序 }) alert(arr); // 0,1,2,5,6,8,9,81 arr.sort(fu

检测字符串中是否含有非法字符js代码

检测字符串中是否含有非法字符js代码:通常情况下,网站输入的字符串内容是需要经过检测的,因为有些字符带有一定的危险性,会对站点带来一定的危害,下面就介绍一下如何检测一个字符串是否含有非法字符,代码如下: function checks(str){ szMsg="[#_%&'\",;:=!^]"; alertStr=""; for(i=1;i<szMsg.length+1;i++){ if(str.indexOf(szMsg.substring

删除字符串中指定位置的字符

/********************************************************************** * 版权所有 (C)2015, Wu Yingqiang. * * 文件名称:DelPosChar.c * 文件标识:无 * 内容摘要:删除字符串中指定位置的字符 * 其它说明:无 * 当前版本: V1.0 * 作 者: Wu Yingqiang * 完成日期: 20150115 * ***********************************

Jquery判断某字符串中是否包含某个字符

if(!(to_city_value.indexOf("(")>0){ //code..... } Jquery判断某字符串中是否包含某个字符,布布扣,bubuko.com

[2013百度软件研发笔试题] 求字符串中连续出现同样字符的最大值

题目完整描写叙述为:用递归的方式实现一个求字符串中连续出现同样字符的最大值.如aaabbcc,连续出现a的最大值为3,abbc,连续出现字符最大的值为2. 下面是我想出来的方法: #include <iostream> using namespace std; #define MAX(a, b) (a) > (b) ? (a) : (b) int Get(char *s, int n, int m)  //字符指针, 当前最长串, max最长串 {     if(*(s+1) == '\

实现一个函数,可以左旋字符串中的k个字符

实现一个函数,可以左旋字符串中的k个字符. AABCD左旋一个字符得到ABCDA AABCD左旋两个字符得到BCDAA #include<stdio.h>  #include<stdlib.h>  void spin(char arr[],int num) //spin函数用以完成旋转字符的功能  {  char arr1[5] = {0};  char *str = arr; //创建两个指针都指向原字符数组的首地址  char *start = arr;  char *mov 

在字符串中删除特定的字符

题目:输入两个字符串,从第一字符串中删除第二个字符串中所有的字符.例如,输入"I am lavor_zl."和"I love you.",则删除之后的第一个字符串变成"amar_z".要求相对于第一个字符串的长度n时间复杂度为O(n). 解题思路:用一个bool数组保存是否在第二个字符串中出现的所有字符,数组下标表示字符,这个数组的长度为256,因为C/C++中字符总共有256个.遍历第一个字符串,用一个指针或数组下标access来表示当前访问第

[2013百度软件研发笔试题] 求字符串中连续出现相同字符的最大值

题目完整描述为:用递归的方式实现一个求字符串中连续出现相同字符的最大值,如aaabbcc,连续出现a的最大值为3,abbc,连续出现字符最大的值为2. 以下是我想出来的方法: #include <iostream> using namespace std; #define MAX(a, b) (a) > (b) ? (a) : (b) int Get(char *s, int n, int m)  //字符指针, 当前最长串, max最长串 {     if(*(s+1) == '\0'

C语言--左旋字符串中的K个字符

问题: 3.实现一个函数,可以左旋字符串中的k个字符. AABCD左旋一个字符得到ABCDA AABCD左旋两个字符得到BCDAA #include<stdio.h> #include<assert.h> #include<string.h> void reserve(char* str, int len) { assert(str); char* start = str; char* end = str + len - 1; while (start < end