NSCharacterSet string生态库

NSCharacterSet

正如之前提前过的,基础类库(Foundation)拥有最好的、功能也最全的string类的实现。

但是仅当程序员熟练掌握它时,一个string的实现才是真的好。所以本周,我们将浏览一些基础类库的string生态系统中经常用到且用错的重要组成部分:NSCharacterSet


如果你对什么是字符编码搞不清楚的话(即使你有很好的专业知识),那么你应该抓住这次机会反复阅读Joel Spolsky的这篇经典的文章"The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)"。在头脑中保持新鲜感将对你理解我们将要探讨的话题非常有帮助。

NSCharacterSet ,以及它的可变版本NSMutableCharacterSet,用面向对象的方式来表示一组Unicode字符。它经常与NSStringNSScanner组合起来使用,在不同的字符上做过滤、删除或者分割操作。为了给你提供这些字符是哪些字符的直观印象,请看看NSCharacterSet 提供的类方法:

  • alphanumericCharacterSet
  • capitalizedLetterCharacterSet
  • controlCharacterSet
  • decimalDigitCharacterSet
  • decomposableCharacterSet
  • illegalCharacterSet
  • letterCharacterSet
  • lowercaseLetterCharacterSet
  • newlineCharacterSet
  • nonBaseCharacterSet
  • punctuationCharacterSet
  • symbolCharacterSet
  • uppercaseLetterCharacterSet
  • whitespaceAndNewlineCharacterSet
  • whitespaceCharacterSet

与它的名字所表述的相反,NSCharacterSetNSSet 一点关系都没有

虽然底层实现不太一样,但是 NSCharacterSet 在概念上跟 NSIndexSet有点相似的。NSIndexSet之前提到过,表示一个有序的不重复的无符号整数的集合。Unicode字符跟无符号整数类似,大致对应一些拼写表示。所以,一个 NSCharacterSet +lowercaseCharacterSet 字符集与一个包含97到122范围的 NSIndexSet 是等价的。

现在我们对理解 NSCharacterSet 的基本概念已经有了少许自信,让我们来看一些它的模式与反模式吧:

去掉空格

NSString -stringByTrimmingCharactersInSet: 是个你需要牢牢记住的方法。它经常会传入 NSCharacterSet +whitespaceCharacterSet+whitespaceAndNewlineCharacterSet 来删除输入字符串的头尾的空白符号。

需要重点注意的是,这个方法 仅仅 去除了 开头结尾 的指定字符集中连续字符。这就是说,如果你想去除单词之间的额外空格,请看下一步。

挤压空格

假设你去掉字符串两端的多余空格之后,还想去除单词之间的多余空格,这里有个非常简便的方法:

Objective-C

NSString *string = @"Lorem    ipsum dolar   sit  amet."; string = [string stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceCharacterSet]]; NSArray *components = [string componentsSeparatedByCharactersInSet:[NSCharacterSet whitespaceCharacterSet]]; components = [components filteredArrayUsingPredicate:[NSPredicate predicateWithFormat:@"self <> ‘‘"]]; string = [components componentsJoinedByString:@" "];

首先,删除字符串首尾的空格;然后用 NSString -componentsSeparatedByCharactersInSet: 在空格处将字符串分割成一个 NSArray;再用一个 NSPredicate 去除空串;最后,用 NSArray -componentsJoinedByString: 用单个空格符将数组重新拼成字符串。注意:这种方法仅适用于英语这种用空格分割的语言。

现在看看反模式吧。请先看看 the answers to this question on StackOverflow

在写这篇文章的时候,排行第二的正确答案有 58 个顶和 2 个踩。排行第一的有 84 个顶和 24 个踩。

如今,排名第一的答案却不是正确答案是不太正常的,但是这个问题已经破了不重复答案数(10个)的记录,同时也破了不重复、完全错误的答案数(9个)的记录。

言归正传,这里有 9 个错误答案:

  • "Use stringByTrimmingCharactersInSet" - 正如你所知道的,它只去掉首尾的空格。
  • "Replace ‘ ‘ with ‘‘" - 这个去除了所有的空格,劳而无功。
  • "Use a regular expression" - 有点用,但它没有处理首尾的空格。用正则表达式有点大材小用了。
  • "Use Regexp Lite" - 说真的,正则表达式真心没必要。同时为了这点功能增加第三方库很不值。
  • "Use OgreKit" - 同上,添加了第三方库。
  • "Split the string into components, iterate over them to find components with non-zero length, and then re-combine" - 很接近了,但是 componentsSeparatedByCharactersInSet: 已经让遍历变得没必要。
  • "Replace two-space strings with single-space strings in a while loop" - 错误且浪费计算资源。
  • "Manually iterate over each unichar in the string and use NSCharacterSet -characterIsMember:" - 用了一个复杂到让人吃惊的程度的方法,却忘了标准库中已经有方法可以用。
  • "Find and remove all of the tabs" - 有谁提到了制表符了?不过还是谢谢了吧。

我个人并不是想责怪回答问题的人——只是指出完成这个功能有多少种不同的方法,而这些方法有多少是完全错误的。

字符串分词

不要用 NSCharacterSet 来分词。 CFStringTokenizer 来替代它。

你用 componentsSeparatedByCharactersInSet: 来清理用户输入是可以谅解的,但是用它来做更复杂的事情,你将陷入痛苦的深渊。

为什么?请记住,语言并不是都用空格作为词的分界。虽然实际上以空格分界的语言使用非常广泛。但哪怕只算上中国和日本就已经有十多亿人,占了世界人口总量的 16%。

……即使是用空格分隔的语言,分词也有一些模棱两可的边界条件,特别是复合词汇和标点符号。

以上只为说明:如果你想将字符串分成有意义的单词,那么请用 CFStringTokenizer (或者 enumerateSubstringsInRange:options:usingBlock:)吧。

从字符串解析数据

NSScanner 是个用以解析任意或半结构化的字符串的数据的类。当你为一个字符串创建一个扫描器时,你可以指定忽略哪些字符,这样可以避免那些字符以各种各样的方式被包含到解析出来的结果中。

例如,你想从这样一个字符串中解析出开门时间:

Text

Mon-Thurs:  8:00 - 18:00 Fri:        7:00 - 17:00 Sat-Sun:    10:00 - 15:00

你会 enumerateLinesUsingBlock: 并像这样用一个 NSScanner 来解析:

SwiftObjective-C

let skippedCharacters = NSMutableCharacterSet() skippedCharacters.formIntersectionWithCharacterSet(NSCharacterSet.punctuationCharacterSet()) skippedCharacters.formIntersectionWithCharacterSet(NSCharacterSet.whitespaceCharacterSet()) string.enumerateLines { (line, _) in     let scanner = NSScanner(string: line)     scanner.charactersToBeSkipped = skippedCharacters     var startDay, endDay: NSString?     var startHour: Int = 0     var startMinute: Int = 0     var endHour: Int = 0     var endMinute: Int = 0     scanner.scanCharactersFromSet(NSCharacterSet.letterCharacterSet(), intoString: &startDay)     scanner.scanCharactersFromSet(NSCharacterSet.letterCharacterSet(), intoString: &endDay)     scanner.scanInteger(&startHour)     scanner.scanInteger(&startMinute)     scanner.scanInteger(&endHour)     scanner.scanInteger(&endMinute) }

我们首先从空格字符集和标点符号字符集的并集构造了一个 NSMutableCharacterSet。告诉 NSScanner 忽略这些字符以极大地减少解析这些字符的必要逻辑。

scanCharactersFromSet: 传入字母字符集得到每项中一星期内的开始和结束(可选)的天数。scanInteger 类似地,得到下一个连续的整型值。

NSCharacterSetNSScanner 让你可以快速而充满自信地编码。这两者真是完美组合。



NSCharacterSet 是基础类库中字符串处理系统中的一员,可能是最容易被用错或是误解的一员。在脑中记住这些模式与反模式,你将不仅能做一些很有用的诸如管理空格及从字符串中读信息之类的事情,更重要的是,你将避免误入歧途。

如果“不出错”对一个 NSHipster 来说不是最重要的事情,那我也不想成为正确的了!

时间: 2024-10-10 12:21:46

NSCharacterSet string生态库的相关文章

标准库string类型

string类型支持长度可变的字符串,C++标准库将负责管理与存储字符相关的内存,以及提供各种有用的操作.标准库string类型的目的就是满足对字符串的一般应用. 本文地址:http://www.cnblogs.com/archimedes/p/cpp-string.html,转载请注明源地址. 引入头文件#include<string> 1.string对象的定义和初始化 string标准库支持几个构造函数,构造函数是一个特殊成员函数 一下是几种初试化string对象的方式 string s

【C++ Primer每日刷】之三 标准库 string 类型

标准库 string 类型 string 类型支持长度可变的字符串,C++ 标准库将负责管理与存储字符相关的内存,以及提供各种有用的操作.标准库string 类型的目的就是满足对字符串的一般应用. 与其他的标准库类型一样,用户程序要使用 string 类型对象,必须包含相关头文件.如果提供了合适的 using 声明,那么编写出来的程序将会变得简短些: #include <string> using std::string; 1.1 string 对象的定义和初始化 string 标准库支持几个

用robotframework 标准库String解决由于存在千分位分隔符导致两个数值不相等的问题。

在编写robotframework自动化断言的过程中,我遇到了如下问题: 我想写一个两个金额判断是否相等的断言,其中一个金额是展示字段存在千分位分隔符,另一个金额是input带入字段,没有千分位分隔符,我期望得到相等的结果,但是报错了!!!!作为小白的我完全无从下手,今天终于找到了解决办法----------String标准库. 话不多说,放上标准库的官方文档http://robotframework.org/robotframework/latest/libraries/String.html

C预处理器和C库

#define #include #undef #ifdef #else #endif #if #elif #else #endif 预处理宏: p463 _ _fun_ _是预定义标识符(函数作用域),不是宏(文件作用域) #line --重置_ _LINE_ _和_ _FILE_ _宏报告的行号和文件名 #error #pragma --将编译器指令置于源代码中 内联函数 inline --减少执行的时间 函数库 .数学库 略... exit() atexit() exit()执行了atex

第三章:标准库类型

1:标准库函数,类名等都在std命名空间中:有些类型名或函数在类里面的头文件中,故而通过头文件可以得到,或者通过“类::”得到.而很多c++的标准库中类名,不仅仅是添加头文件,还需要加std::. 2:关于c与c++的头文件区别:c的标准库都是用.h命名的,而c++是没有的:对于兼容c则c++通过cXXX来表示了,例如stdio.h就是cstdio.标准库中的头文件通过<>;非标准的用””. 3:<>和””是用于指出寻找函数,或者类等的初始路劲.用<>表示从系统的路径找

string 对象及其操作

标准库类型string 标准库类型string表示可变长的字符序列,使用string类型必须首先包含string头文件.作为标准库的一部分,string定义在命名空间std中.接下来的示例都假定了已包含了下述代码: #include <string> using std::string; 本节描述最常用的string操作. 定义和初始化string对象 如何初始化类的对象是由类本身决定的.一个类可以定义很多种初始化对象的方式,只不过这些方式之间必须有所区别:或者是初始值的数量有所区别,或者是初

discuz核心函数库function_core的函数注释

转:http://jancy.iteye.com/blog/1260834 Php代码   /** * 系统错误处理 * @param <type> $message 错误信息 * @param <type> $show 是否显示信息 * @param <type> $save 是否存入日志 * @param <type> $halt 是否中断访问 */ function system_error($message, $show = true, $save 

《C Primer Plus》学习笔记——C预处理器和C库

1.在Unix系统中,尖括号告诉预处理器在一个或多个标准系统目录中寻找文件.双引号告诉预处理器先在当前目录(或文件名中指定的其他目录)中寻找文件,然后在标准位置寻找文件. 2.#undef指令:取消定义一个给定的#define #define LIMIT 400 #undef LIMIT 3.条件编译 #ifdef.#else和#endif指令 #ifdef 宏名 //语句段1 #else //语句段2 #endif 作用:当标识符已经被定义过(一般是用#define命令定义),则对语句段1进行

正则表达式库的使用

正则表达式的概念Regular Expression RE 优势:简洁 一行胜千言 用于对字符串的匹配 在文本处理中十分常用 表达文本类型的特征(病毒,入侵检测) 同时查找或替换一组字符串 匹配字符串的局部和全部 正则表达式的使用 首先将符合正则表达式语法的字符串转化成正则表达式 特征 p = re.compile(regx) 操作符 说明 实例 . 表示任何单个字符 [ ] 字符集,对单个字符给出取值范围 [abc]表示a.b.c,[a-z]表示所有的小写字母 [^] [^abc]表示非a或b