PHP采集程序大全

在论坛好久了没有怎么正式的发表过东西,今天给大家共享一下我的采集代码!

思路:

  采集程序的思路很简单大体可以分为以下几个步骤:

 1.获取远程文件源代码(file_get_contents或用fopen).
2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页)。
  3.跟根得到的内容进行下载入库等操作。

在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西。

代码:

记的以前发部过部分的代码今天我在这里在简单的发部一下
复制php内容到剪贴板
PHP代码:
@$nl=file_get_contents($rs[‘url‘]);//抓取远程内容
PReg_match_all("/var url =
\"gameswf\/(.*?)\.swf\";/is",$nl,$connect);//进行正规匹配取得自己要的内容
MySQL_query("insert
......插入数据库部分");

上面的代码就是所有采集要用到的代码了,当然大家也可以用fope来作,我个人喜欢用file_get_contents。

下面在共享一下我的下载图片Flash到本地的办法,太简单了两行代码
复制PHP内容到剪贴板
PHP代码:
if(@copy($url,$newurl)){
echo ‘ok‘;
}

在论坛上以前还发过一个图片下载函数这会也放上来给大家
复制PHP内容到剪贴板
PHP代码:
/*本存图片函数*/
function
getimg($url,$filename){

/*判断图片的url是否为空,如果为空停止函数*/
if($url==""){
return
false;

}

/*取得图片的扩展名,存入变量$ext中*/
$ext=strrchr($url,".");


/*判断是否是合法的图片文件*/
if($ext!=".gif" &&
$ext!=".jpg"){

return false;

}

/*读取图片*/

$img=file_get_contents($url);

/*打开指定的文件*/

[email protected]($filename.$ext,"a");

/*写入图片到指点的文件*/
fwrite($fp,$img);
/*关闭文件*/
fclose($fp);

/*返回图片的新文件名*/(比如fclose($fp);昆明国防路医院
return
$filename.$ext;
}

共享一下个人的采集心德:

1.不采那些作防盗链了的站,其实可以作假来路但是这样的站采集成本太高

2.采集尽量快的站,最好在本地进行采集

3.采集时有很多时候可以先把一部分数据存入数据库,等以后进行下一步的处理。

4.采集的时候一定要作好出错处理,我一般都是如果采集三次没有成功就跳过。以前经常就因为一条内容不能采就卡在那里一直的采。

最后昆明国防路医院提醒各位,入库前一定要作好判断,检查内容的合法,过滤不必要的字符串。

PHP采集程序大全,布布扣,bubuko.com

时间: 2024-08-03 09:24:16

PHP采集程序大全的相关文章

我的php学习笔记:php通用采集程序

php采集程序构建基本步骤: 采集程序是什么?获取远程数据(文字.图片.图片)并快速保存到本地或指定地址. 如天气预报(小偷程序): 远程获取-->替换内容-->展示给用户 如实时更新的新闻(采集内容): 远程获取-->提取内容-->分类存储-->读取内容--->展示内容 ************************* 设计PHP采集入库UML 列表正则: 终端正则: ************************** file_get_contents()获取远

【开源】开发者新闻APP+博客园新闻采集程序+infoq新闻采集程序+新闻Restful服务

这几天车子跟别人撞了,水箱撞稀烂了,要坐一个星期的公车 实在太无聊,就抽时间搞了这么个APP出来,打发公车上的时光 (开发者头条里的新闻专业性太强,公车上实在无法静心研读) 我经常看的也就博客园.infoq.36kr.开源中国的新闻 现在只做了博客园和infoq,接下来打算做36kr和开源中国的新闻,如果大家有什么好建议也可以在评论里提 数据都是准实时的取来的,以后争取做到你去刷就有新闻给你看 以后可能会做:新闻的分享.收藏.标签.分类等功能,当然这要看大家的热情程度啦! 废话少说,先来上图  

php开发通用采集程序

php采集程序构建基本步骤: 采集程序是什么?获取远程数据(文字.图片.图片)并快速保存到本地或指定地址. 如天气预报(小偷程序): 远程获取-->替换内容-->展示给用户 如实时更新的新闻(采集内容): 远程获取-->提取内容-->分类存储-->读取内容--->展示内容 ************************* 设计PHP采集入库UML       列表正则:       终端正则: ************************** file_get_c

简单的java采集程序二

继[简单的java采集程序],这里将完成对整个网站的号码段的采集任务. [使用预编译+批处理采集网页内容至数据库表中]          在之前我们用statement类来创建sql语句的执行对象,以实现插入字段到数据库的操作,但由于插入的数据量较大,如果继续用statement操作话,会很耗时间,我们用其子类PreparedStatement来进行操作.      PreparedStatement 可以实现sql语句的预编译,我们只需要通过其setString()方法传参即可,这样不仅效率提

如何在采集程序中共享火狐的Cookie?

原文作者:西安鲲之鹏 原文链接:http://www.site-digger.com/html/articles/20120531/36.html 对于需要登录后才能进行的采集,采用共享火狐浏览器Cookie的方案好处是:不用自己在再写登录过程,直接在火狐中进行登录即可. 火狐的Cookie存储在哪儿? 临时性Cookie,即关闭浏览器后就会过期的Cookie存储在sessionstore.js中,格式为JSON,结构如下: 永久性Cookie存放在cookies.sqlite中,格式为SQLi

PHP采集程序常用函数分享

分享一些php采集程序中的常用函数,省得以后满地找了,想用时来这里看看,哈哈. //当前的脚本网址 function get_php_url(){ if(!empty($_SERVER["REQUEST_URI"])){ $scriptName = $_SERVER["REQUEST_URI"]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER["PHP_SELF"]; if(empty(

【PLC无线通讯专家】免费分享-PLC200通讯程序大全

这是[PLC无线通讯专家]团队为用户整理的20个西门子PLC200通讯程序实例.能为PLC编程人员节省项目时间. 你只要了解一下S7-200的串口设置,和MODBUS协议的基本知识,参照这些程序就可以完成PLC与PLC之间的数据交换,也可以实现PC与PLC之间的数据通讯,无论是用VB,VC高级语言,或是用组态软件均可以. 关于文档密码请参阅以下内容. 第一部分.S7-200自由口通讯实例12个 PLC200自由口通信模式是通过用户程序控制CPU的通信操作模式,可以实现用户自定义通信协议.在白由口

解决三星ARM11开发板图片采集程序源码出现的Bug

三星公司提供的图片采集程序源码是这个: /***************** Capture Thread *****************/ void capture_thread(void) { int start, ret; int key; start = 1; ret = ioctl(cam_c_fp, VIDIOC_STREAMON, &start); if (ret < 0) { printf("V4L2 : ioctl on VIDIOC_STREAMON fai

在采集程序中增加定时发送邮件以及关机处理的实现

我们在采集特定数据的时候,往往需要耗费较长的时间,有时候因为一些事情,不可能长久的在电脑前等待结果,那么需要程序在一段时间后自动给我们发送邮件等通知,以及执行退出程序或者关机等处理善后工作,以节省资源或者电源,那么需要实现这个过程是如何的呢.本篇随笔基于这个采集程序的基础上增加这些功能的实现,介绍其中的一些处理技巧. 1.邮件配置 如果我们需要实现发送邮件.或者发送短信等通知途径,那么我们就需要把这些处理过程涉及到的参数提前录入到系统里面,是在不行硬编码也行,不过为了可扩展性,我倾向于使用配置界