字符串分割函数StringTokenizer与strtok,strsep的比较

字符串分割在我们在开发过程中经常遇到的问题。根据一个标记串，将输入的字符串分割成多个子串。实际编码当中，我们发现使用不同的函数得到的结果也会有区别。

为了方便比较，我们定义一个统一的输入输出比较方式：

vector<string> parsetoken(const string &str, const string& delim);

输入源字符串str,分割标记串为delim,分割的子串保存到vector<string>中。

我们分别使用内部的StringTokenizer::parseTokens，与c语言中的strtok,strtep函数来实现我们上面这个标准输入输出函数。

StringTokenizer::parseTokens的定义与上面的定义相同，无需改动直接使用。

使用strtok实现parsetoken如下：

vector<string> parsetoken_2(const string &str,const string &delim)
{
        vector<string>  values;
        char *result = NULL;
        char *buf = new char[str.length()+1];

        strcpy(buf,str.c_str());

        result = strtok( buf, delim.c_str());
        while( result != NULL ) {
                values.push_back(string(result));
                result = strtok( NULL, delim.c_str());
        }

        delete buf;

        return values;
}

使用strtep实现parsetoken如下：

vector<string> parsetoken(const string &str,const string &delim)
{
        vector<string>  values;
        char *result = NULL;
        char *buf = new char[str.length()+1];

        strcpy(buf,str.c_str());

        result = strsep( &buf, delim.c_str());
        while( result != NULL ) {
                values.push_back(string(result));
                result = strsep( &buf, delim.c_str());
        }

        delete buf;

        return true;
}

使用的测试字符串为"|5111999991|普通-通票测试(ZTY)|||11900|10171|1729|0.17|";

测试函数为：

int TestApp::MainProcess()
{
        string str2="|5111999991|普通-通票测试(ZTY)|||11900|10171|1729|0.17|";

        cout<<"test string:"<<str2<<endl;

        cout<<"\n-----use StringTokenizer---------"<<endl;
        vector<string> vec0 = StringTokenizer::parseTokens(str2,"|");
        cout<<"vec0.size="<<vec0.size()<<endl;

        for(int i=0;i<vec0.size();++i){
                printf("%d:%s\n",i,vec0[i].c_str());
        }

        cout<<"\n-----use strtok---------"<<endl;
        vector<string> vec1=parsetoken_2(str2,"|");
        cout<<"vec1.size="<<vec1.size()<<endl;
        for(int i = 0 ;i< vec1.size(); ++i){
                printf("%d:%s\n",i,vec1[i].c_str());
        }

        cout<<"\n-----use strsep---------"<<endl;
        vector<string> vec2=parsetoken(str2,"|");
        cout<<"vec2.size="<<vec2.size()<<endl;
        for(int i = 0 ;i< vec2.size(); ++i){
                printf("%d:%s\n",i,vec2[i].c_str());
        }
        return 0;
}

我们将分割后子串的个数以及每个子串打印出来，对比结果如下：

test string:|5111999991|普通-通票测试(ZTY)|||11900|10171|1729|0.17|

-----use StringTokenizer---------
vec0.size=6
0:5111999991
1:普通-通票测试(ZTY)
2:11900
3:10171
4:1729
5:0.17

-----use strtok---------
vec1.size=6
0:5111999991
1:普通-通票测试(ZTY)
2:11900
3:10171
4:1729
5:0.17

-----use strsep---------
vec2.size=10
0:
1:5111999991
2:普通-通票测试(ZTY)
3:4:
5:11900
6:10171
7:1729
8:0.17
9:

结果分析

StringTokenizer和strtok的结果是一样的，而strsep则出现了一些空字符串，也就是"\0".而前两个则将"\0"作为无意义的子串过滤掉了。

1.如果空字符串"\0"是无意义的，则过滤是可以接受的。

2.如果空字符串"\0"是有意义的，则过滤是错误的。

假设有一个结构体Student:

struct Student
{
  string name;
  string sex;
  string age;
};

要将一个字符串"xiaoming||20"按|分割到一个Student结构体里，现在，中间的空字符串是有意义的，表示结构体里的sex，不能被过滤。这时候就不能使用内部的StringTokenizer来分割字符串了。最好使用strsep来实现对应的分割函数。

strtok不是一个线程安全的函数,会被逐渐废弃，请使用strtok_r或者strsep代替。

总结

StringTokenizer,strtok,trsep都用于分割字符串。

StringTokenizer和strtok都会主动过滤掉空字符串
strsep则不会过滤空字符串

字符串分割函数StringTokenizer与strtok,strsep的比较

时间： 2024-10-21 07:23:37

字符串分割函数StringTokenizer与strtok,strsep的比较的相关文章

字符串分割函数strtok（线程不安全）,线程安全函数strtok_r

strtok_r函数---字符串分割函数函数原型: char *strtok_r(char *str, const char *delim, char **saveptr); 参数: str:被分割的字符串,若str为NULL,则被分割的字符串为*saveptr delim:依据此字符串分割str saveptr:分割后剩余部分的字符串返回值: 遇到第一个delim时,分割出的字符串,若没有遇到delim,则范围NULL 例程: int main(int argc,char* argv[])

php 字符串分割函数split

说明 array split ( string $pattern , string $string [, int $limit ] ) 本函数返回一个字符串数组,每个单元为 string 经区分大小写的正则表达式 pattern 作为边界分割出的子串.如果设定了 limit,则返回的数组最多包含 limit 个单元,而其中最后一个单元包含了 string 中剩余的所有部分.如果出错,则 split() 返回 FALSE. Example #1 split(

oracle | 字符串分割函数

/** * 字符串分割函数. * @param P_STR 待分割的字符串 * @param 分隔符 * @return 自定义table类型TY_STR_SPLIT. * 使用方法 select column_value from table(fn_split('1,2',',')) * @Author: xDer */ CREATE OR REPLACE FUNCTION FN_SPLIT(P_STR IN VARCHAR2, P_DELIMITER IN VARCHAR2) RETURN

JavaScript中字符串分割函数split用法实例

这篇文章主要介绍了JavaScript中字符串分割函数split用法,实例分析了javascript中split函数操作字符串的技巧,非常具有实用价值,需要的朋友可以参考下本文实例讲述了JavaScript中字符串分割函数split用法.分享给大家供大家参考.具体如下: 先来看下面这段代码: <script type="text/javascript"> var str="How are you doing today?" document.write

Split字符串分割函数

非常非常常用的一个函数Split字符串分割函数. Dim myTest myTest = "aaa/bbb/ccc/ddd/eee/fff/ggg" Dim arrTest arrTest = Split(myTest , "/" , -1 , 1) Dim i For i = 0 to ubound(arrTest) print "arrTest(" & i & ") = " & arrTest(i)

hive函数 -- split 字符串分割函数

hive字符串分割函数 split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 seconds, Fetched: 1 row(s) 返回值为一个数组 a.基本用法: 例1: split('a,b,c,d',',') 得到的结果: ["a","b","c","d"] b.截取字符串中的某个值: 当然,我们也可以指定取结

C++的字符串分割函数

原文: C++的字符串没有分割函数,因此需要自己写方便使用.而受到开发工具的影响,有很多用起来比较麻烦啦,下面这个比较不错奥. 用STL进行字符串的分割涉及到string类的两个函数find和substr:1.find函数原型:size_t find ( const string& str, size_t pos = 0 ) const;功能:查找子字符串第一次出现的位置.参数说明:str为子字符串,pos为初始查找位置.返回值:找到的话返回第一次出现的位置,否则返回string::npos

字符串分割函数--拆分成多行(转)

--字符串拆分成行 declare @str varchar(8000) set @str = 'a1,b1,c2,d1,e3,f5' --,换成 union all select set @str = 'select name='''+replace(@str,',',''' union all select ''')+'''' exec(@str) /*name ---- a1 b1 c2 d1 e3 f5 */ --字符串分割函数--拆分成多行 create function

ASP.NET中常用的字符串分割函数

asp.net字符串分割函数用法先来看个简单的实例但是其数组长度却是25,而不是3.下面这种方法是先将“[111cn.net]”替换成一个特殊字符,比如$,在根据这个字符执行Split 例如下面我要根据[111cn.net]分割的话代码如下复制代码 string[] arrstr2 = str.Replace("[111cn.net]", "$").Split('$'); 好了看其它方法最简单最常用的方法,以一个指定的字符进行的分割打开vs.net新建一个