iOS开发——网络使用技术OC篇&网络爬虫-使用正则表达式抓取网络数据

网络爬虫-使用正则表达式抓取网络数据

关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现

  • 1:正则表达
  • 2:利用其他语言的工具包:java/Python

先来看看网络爬虫的基本原理:

一个通用的网络爬虫的框架如图所示:

网络爬虫的基本工作流程如下:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

以下内容均为本人个人理解。

网络数据抓取

  • 概念:网络数据抓取,也叫网络爬虫。是在我们iOS程序中,获取要抓取到的网页上的数据。
  • 用处:如果要用到某网站的一些数据,这个时候我们就要用到抓取数据技术。
  • 建议:建议抓取过程中,多利用分类,多写一些分类方法,有助于提高程序可读性,也可提高效率。

今天先来介绍一下第一种:正则表达式

注意点:

其实网络抓取数据很简单,但是有用到正则表达式,这个有人说难,有人说很难,有人说非常难,其实我们抓取数据只会用到“." 、"*"、"?"这三个符号!

正则表达式中:“.”是包括任何字符不包括换行符,“*”是任意多个的字符,“?”是指到最近的一个URL,如果没有就是到最远的一个!

1 NSString *pantten = [NSString stringWithFormat:@"<ul class=\"cs_list\">(.*?)</ul>"];
2
3 NSRegularExpression *regx = [NSRegularExpression regularExpressionWithPattern:pantten options:NSRegularExpressionCaseInsensitive |NSRegularExpressionDotMatchesLineSeparators error:NULL];

其中有两个参数需要大家了解一下,很重要


1

2

3

4

5

NSRegularExpressionCaseinsensitive 不区分大小写

NSRegularExpressionDotMatcheLineSeparators 让“点”字符可以匹配换行符

抓数据,其实主要会写匹配字符串就行

  • (.*?)表示要抓到的内容
  • .*?表示要忽略的内容,爱是啥是啥
  • 字符串转义双引号用\转义括号用\\

在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步。

1、获取网页的html

  • 2、利用正则表达式,获取我们所需要的数据
  • 3、分析,使用获取到的数据,(例如,保存到数据库)

接下来我们分析代码:

1、获取网页的html

  对于一些网页,不需要提交Post提交数据时,我们可以简单的利用NSURL类来获取我们所需要的html,交将其转换中kCFStringEncodingGB_18030_2000格式,解决中文乱码问题。

  

 1 +(NSString*) urlstring:(NSString*)strurl{
 2     NSURL *url = [NSURL URLWithString:strurl];
 3     NSData *data = [NSData dataWithContentsOfURL:url];
 4
 5     NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
 6     NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];
 7
 8     //NSLog(@" html = %@",retStr);
 9
10     return retStr;
11   }

  对于需要Post提交数据的网页,我们可以利用强大的ASIFormDataRequest类来实现,例如:

 1 +(void)getPostResult:(NSString*)startqi{
 2     ASIFormDataRequest *request = [[ASIFormDataRequest alloc] initWithURL:[NSURL URLWithString:URLPost]];
 3
 4     [request setPostValue:startqi forKey:@"startqi"];
 5     [request setPostValue:@"20990101001" forKey:@"endqi"];
 6     [request setPostValue:@"qihao" forKey:@"searchType"];//网页的中的搜索方式
 7     [request startSynchronous];
 8
 9     NSData* data = [request responseData];
10
11   if (data==nil) {
12     FCLOG(@"has not data");
13   }
14   else{
15     NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
16     NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];
17     FCLOG(@"html = %@",retStr);
18   }
19 }

这样的话,我们就通过了两种方式获取了我们所需要的html

2、分析html

  关于利用正则表达式匹配问题,我又对NSString类扩展了一个方法-(NSMutableArray *)substringByRegular:(NSString *)regular。根据传入的正则表达式,返回所有匹配的数组。

  

 1 @implementation NSString(StringRegular)
 2
 3
 4 -(NSMutableArray *)substringByRegular:(NSString *)regular{
 5
 6        NSString * reg=regular;
 7
 8       NSRange r= [self rangeOfString:reg options:NSRegularExpressionSearch];
 9
10       NSMutableArray *arr=[NSMutableArray array];
11
12       if (r.length != NSNotFound &&r.length != 0) {
13
14       int i=0;
15
16       while (r.length != NSNotFound &&r.length != 0) {
17
18       FCLOG(@"index = %i regIndex = %d loc = %d",(++i),r.length,r.location);
19
20       NSString* substr = [self substringWithRange:r];
21
22       FCLOG(@"substr = %@",substr);
23
24       [arr addObject:substr];
25
26       NSRange startr=NSMakeRange(r.location+r.length, [self length]-r.location-r.length);
27
28       r=[self rangeOfString:reg options:NSRegularExpressionSearch range:startr];
29     }
30   }
31   return arr;
32 }
33 @end

在这种情况下,我们首先我得到我们要获取数据的正则表达式,关于正则表达式这种火星文我就不多说了,我也很纠结,我就不多说了,但是有一点就是,所写的正则表达式一定是我们所需要的数据,并且能够屏蔽无效信息的,有可能在一次匹配中无法获取,可以多次利用正则表达式来分段获取。下面是我的语句,在我的例子中,就是两次利用正则表达式。

NSString *regstr = @"<td class=\‘z_bg_05\‘>\\w{11}</td><td class=\‘z_bg_13\‘>(\\w{2}\\s{0,1})*</td>";
NSMutableArray *arr=[strhtml substringByRegular:regstr];

3、分析或利用数据,在这里,我只是利用上一篇博客上所述方法简单的把这些数据保存到了数据库(sqlite3)中。

其实在这个arr数组中一条就是对应我数据库表中的一条记录,但是像td class等这些信息我是不需要的,所以再次利用正则表达式来分析NSString

 1 if (arr!=nil&&[arr count]>0) {
 2
 3       NSString *[email protected]"\\w{11}";
 4       NSString *[email protected]"(\\w{2}\\s{0,1}){8}";
 5
 6       TicketResultService *service=[[TicketResultService alloc] init];
 7       [[Sqlite3Helper Instance] openDB];
 8     for (NSString *sub in arr) {
 9
10       TicketResult* r=[[[TicketResult alloc] init] autorelease];
11
12       NSMutableArray* prearr=[sub substringByRegular:prereg];
13
14       if (prearr!=nil&&[prearr count]>0) {
15         r.sectionID=(NSString*)[prearr objectAtIndex:0];
16       }
17       else{
18         continue;
19       }
20
21       NSMutableArray *backarr=[sub substringByRegular:backreg];
22       if (backarr!=nil&&[backarr count]>0) {
23       r.result=[backarr objectAtIndex:0];
24       }
25       else{
26         continue;
27       }
28
29       if([service isExist:r.sectionID]){
30         continue;
31       }
32
33     r.type=[NSNumber numberWithInt:1];
34
35     [service addModel:r];
36
37   }
38   [[Sqlite3Helper Instance] closeDB];
39
40   [service release];
41 }

以上爬虫才算正式完成,其实,在此之前还有一个第0步,即判断设备目前的网络状态,如果没有联网的就没有必要去爬虫了,因为你也爬不到任何的数据。判断网络状态我是利用Apple官方的一个例子Reachability,网上也有很多关于这个的例子,我就不再细说了,非常感谢网上的各位大牛们提供的很好的办法,让我能更快的写出这些。

时间: 2024-11-17 11:15:25

iOS开发——网络使用技术OC篇&网络爬虫-使用正则表达式抓取网络数据的相关文章

iOS开发——项目实战技术OC篇&amp;XMPP简单总结

XMPP简单总结 最近面试被问到了一个问题,笔者当时就懵了:什么XMPP,平时怎么使用,使用过程中遇到什么问题?. 但是还是通过记忆,简单的说了一下自己所知道了,不过那并没有撒卵用,所以你懂的 XMPPFramework是一个OS X/iOS平台的开源项目,使用Objective-C实现了XMPP协议(RFC-3920),同时还提供了用于读写XML的工具,大大简化了基于XMPP的通信应用的开发. 1.关于连接的 1 //此方法在stream开始连接服务器的时候调用 2 - (void)xmppS

iOS开发——完整项目实战OC篇&amp;百思不得姐第四天

iOS开发——完整项目实战OC篇&百思不得姐第四天 上午 一:自定义按钮使用九宫格布局 二:控件不能点击 三:获取用户点击了那个按钮 四:调整按钮内部控件的位置:主流->上下 五:不能直接使用self.navigationController中或者View中获取导航控制器 方法一: 方法二: 六:布局取整 1 // 总行数 2 3 // NSUInteger rows = sqaures.count / maxCols; 4 5 // if (sqaures.count % maxCols)

【iOS】正则表达式抓取网页数据制作小词典

应用程序不一定要自己去提供数据,有现成的数据学会去用才好. 网络很大,各种搜索引擎每天到处爬.本文通过正则表达式抓取网站的数据来做一个小词典. 一.正则表达式的使用 1. 确定匹配方案,即pattern 2. 用pattern实例化NSRegularExpression 3. 用匹配方法开始匹配. 匹配一次:可以使用firstMatch方法 匹配多次:可以用matchs方法 正则表达式对照表:(在网上找到了一个很不错的表,正则表达式各个语言通用) http://www.jb51.net/shou

iOS开发之多线程技术——GCD篇

本篇将从四个方面对iOS开发中GCD的使用进行详尽的讲解: 一.什么是GCD 二.我们为什么要用GCD技术 三.在实际开发中如何使用GCD更好的实现我们的需求 一.Synchronous & Asynchronous 同步 & 异步 二.Serial Queues & Concurrent Queues 串行 & 并发 三.Global Queues全局队列 四.Main Queue主队列 五.同步的作用 六.dispatch_time延迟操作 七.线程安全(单例dispa

iOS开发之多线程技术——NSOperation篇

本篇将从四个方面对iOS开发中使用到的NSOperation技术进行讲解: 一.什么是NSOperation 二.我们为什么使用NSOperation 三.在实际开发中如何使用NSOperation 1.自定义NSOperation 2.NSOperation的基本使用 3.NSOperation实现线程间通信 1)利用代理进行消息传递 2)利用通知实现消息传递 3)利用block进行消息传递 四.与GCD比较 一.什么是NSOperation NSOperation是一个抽象的基类,表示一个独

ios开发——常用经典算法OC篇&amp;冒泡/快速

冒泡排序与快速排序 1.序言 ios开发中涉及到算法的地方还真不多,除非你的应用程序真的非常大,或者你想你的应用程序性能非常好才会去想到关于算法方面的性能优化,而在ios开发中真的能用得到的也就是关于排序的,当然如果你是做游戏的话那么你可能会涉及到不少的算法或者优化问题,但是这不是本篇文章讨论的范围. 后面的文章中,我将会给大家详细介绍八大算法. 2.冒泡排序 2.1 引出 前面的两篇博客里讲的插入排序是基于“逐个记录插入”,选择排序是基于“选择”,那么冒泡排序其实是基于“交换”.每次从第一个记

iOS开发——完整项目实战OC篇&amp;百思不得姐第十一天

百思不得姐第十一天 一:模型中没有ID这个属性 为模型增加一个属性ID,设置名字替换 /** id */ @property (nonatomic, copy) NSString *ID; 替换: + (NSDictionary *)replacedKeyFromPropertyName {     return @{@"ID" : @"id"}; } 二:错误的将数组当作字典来用(其实就是没有数据,比如刷新数据已经没有了,或者直接就是0) 通过堆栈定位错误 最后一

iOS开发——完整项目实战OC篇&amp;百思不得姐第八天

百思不得姐第八天 上午 一:监听ScrollView停止两种方法 代码实现滚动的时候:必须要有动画 拖拽实现滚动的时候 二:ScrollView中,对应的X/Y宽高都相等的时候frmae就等一bounds 三:判断View是否在对应的View上面 1:判断父控件 2:看Window是否有值 3:是否创建加载 四:autormaticllyAdjustScrollViewInsets 五:内边距设置 1:tableView尺寸还是屏幕的尺寸(高度) 2:不被导航栏河tabBar挡住(用户能看齐所有

iOS开发——完整项目实战OC篇&amp;百思不得姐第三天

百思不得姐第三天 上午 错误:键盘处理 设置cell的分割线 方法一:添加一个View再上面 方法二:修改对应的Frame 拦截系统frame的设置,根据需求修改对应的值 不管别人传什么进来原值都不变,使用我们默认的值 优化 控制器挂掉取消 AFN内部实现 直接终止请求 暂停请求 取消请求总结 AFN返回码 debug不能全为小写 两者不同,下面的带IBOutlet的内部会隐士的强引用着他 所以调用方式是先打印后面的,就是说走完第一行之后并且没有销毁,等}走完之后就销毁 下午 设置圆形图片的简单