我的php学习笔记:php通用采集程序

php采集程序构建基本步骤:

采集程序是什么?获取远程数据(文字、图片、图片)并快速保存到本地或指定地址。

如天气预报(小偷程序):

远程获取--》替换内容--》展示给用户

如实时更新的新闻(采集内容):

远程获取--》提取内容--》分类存储--》读取内容---》展示内容

*************************

设计PHP采集入库UML

列表正则:

终端正则:

**************************

file_get_contents()获取远程页面内容

preg_match_all()匹配列表

preg_match()匹配终端

preg_replace()  :过滤终端

**************************

新建一个列表文件:lb.php

echo $con=file_get_cotents($_GET[url]);

$preg ="#<h1><a href=‘(.*)‘ target=‘_blank‘>(.*)</a><span>#iUs";

pg_match_all($preg,$conn,$arr);

foreach($arr[1] as $id=>$v){

echo $v." "arr[2][$id]."<br>";

}

新建vi。php获取标题

vi.php

$con=file_get_contents();

$preg="<title>(.*)</title>/iUs";//大小写不敏感,防止贪婪匹配,防止换行

echo zz($preg,$con);

function zz($preg,$con,$num=1){

preg_match($preg,$con,$arr);

return $arr[$num];

}

echo $arr[1];//获取标题

echo "<a href=vi.php?url=".$v.">".arr[2][$id]."<br>";

======================================

php100:83:采集程序

lb.php

<?php

if($_GET[id]){

$con=file_get_cotents($_GET[url].$_GET[id]."shtml");

$preg ="/<h1><a href=‘(.*)‘ target=‘_blank‘>(.*)</a><span>/iUs";

perg_match_all($preg,$conn,$arr);

foreach($arr[1] as $id=>$v){

echo $v." "arr[2][$id]."<br>";

}

$_GET[id]++;

echo "<script>location.href=‘lb.php?id=‘.$_GET[id]."</script>";

}

?>

http://www.xinhuanet.com/finance/tzxx.htm

===============================================================

操作步骤:

1.新建一个数据库caiji,tep_url表,id,title,content,11 ,100,150

2.新建一个conn.php,插入的语句可以通过phpmyadmin插入一个语句简单的获得

3.新建一个vi.php

4.单条入库获取下一条。

临时的路径列表:

完善我的入库表。

假设删删除了其中的一条Id值,怎么办?删除了第9条!

多加一条语句

$sql2="select * from tmp_url where id>‘$gid‘order by id asc limit 1

我的php学习笔记:php通用采集程序,布布扣,bubuko.com

时间: 2024-10-08 01:09:53

我的php学习笔记:php通用采集程序的相关文章

C++ Primer 学习笔记_94_用于大型程序的工具 --命名空间[续3]

用于大型程序的工具 --命名空间[续3] 六.重载与命名空间 正如我们所见,每个命名空间维持自己的作用域,因此,作为两个不同命名空间的成员的函数不能互相重载.但是,给定命名空间可以包含一组重载函数成员. 1.候选函数与命名空间 命名空间对函数匹配有两个影响.一个影响是明显的:using声明或using 指示可以将函数加到候选集合.另一个影响则微妙得多. 正如前节所见,有一个或多个类类型形参的函数的名字查找包括定义每个形参类型的命名空间.这个规则还影响怎样确定候选集合,为找候选函数而查找定义形参类

Linux 程序设计学习笔记----进程管理与程序开发(下)

转载请注明出处:http://blog.csdn.net/suool/article/details/38419983,谢谢! 进程管理及其控制 创建进程 fork()函数 函数说明具体参见:http://pubs.opengroup.org/onlinepubs/009695399/functions/fork.html 返回值:Upon successful completion, fork() shall return 0 to the child process and shall re

C++ Primer 学习笔记_89_用于大型程序的工具 --异常处理[续2]

用于大型程序的工具 --异常处理[续2] 八.自动资源释放 考虑下面函数: void f() { vector<string> v; string s; while (cin >> s) { v.push_back(s); } string *p = new string[v.size()]; //... delete p; } 在正常情况下,数组和vector都在退出函数之前被撤销,函数中最后一个语句释放数组,在函数结束时自动撤销vector. 但是,如果在函数内部发生异常,则将

C++ Primer 学习笔记_90_用于大型程序的工具 --异常处理[续3]

用于大型程序的工具 --异常处理[续3] 九.auto_ptr类[接上] 5.auto_ptr对象的复制和赋值是破坏性操作 auto_ptr和内置指针对待复制和赋值有非常关键的区别.当复制auto_ptr对象或者将它的值赋给其他auto_ptr对象的时候,将基础对象的所有权从原来的auto_ptr对象转给副本,原来的auto_ptr对象重置为未绑定状态. auto_ptr<string> strPtr1(new string("HELLO!")); auto_ptr<

C++ Primer 学习笔记_93_用于大型程序的工具 --命名空间[续2]

用于大型程序的工具 --命名空间[续2] 五.类.命名空间和作用域 名字的可见性穿过任意嵌套作用域,直到引入名字的块的末尾. 对命名空间内部使用的名字的查找遵循常规C++查找规则:当查找名字的时候,通过外围作用域外查找.对命名空间内部使用的名字而言,外围作用域可能是一个或多个嵌套的命名空间,最终以全包围的全局命名空间结束.只考虑已经在使用点之前声明的名字,而该使用仍在开放的块中: namespace A { int i; namespace B { int i; int j; int f1()

C++ Primer 学习笔记_95_用于大型程序的工具 --多重继承与虚继承

用于大型程序的工具 --多重继承与虚继承 引言: 大多数应用程序使用单个基类的公用继承,但是,在某些情况下,单继承是不够用的,因为可能无法为问题域建模,或者会对模型带来不必要的复杂性. 在这些情况下,多重继承可以更直接地为应用程序建模.多重继承是从多于一个直接基类派生类的能力,多重继承的派生类继承其所有父类的属性. 一.多重继承 1.定义多个类 为了支持多重继承,扩充派生列表: class Bear : public ZooAnimal { //... }; 以支持由逗号分隔的基类列表: cla

C++ Primer 学习笔记_96_用于大型程序的工具 --多重继承与虚继承[续1]

用于大型程序的工具 --多重继承与虚继承[续1] 四.多重继承下的类作用域 成员函数中使用的名字和查找首先在函数本身进行,如果不能在本地找到名字,就继续在本类中查找,然后依次查找每个基类.在多重继承下,查找同时检察所有的基类继承子树 -- 在我们的例子中,并行查找 Endangered子树和Bear/ZooAnimal子树.如果在多个子树中找到该名字,则那个名字的使用必须显式指定使用哪个基类;否则,该名字的使用是二义性的. [小心地雷] 当一个类有多个基类的时候,通过对所有直接基类同时进行名字查

【学习笔记】DirectX应用程序如何初始化

一.使用Windows API创建一个窗口 二.创建一个Swap Chain(交换链) 这一步需要用到一个名为DXGI_SWAP_CHAIN_DESC的结构体,其详细定义如下: typedef struct DXGI_SWAP_CHAIN_DESC { DXGI_MODE_DESC BufferDesc; DXGI_SAMPLE_DESC SampleDesc; DXGI_USAGE BufferUsage; UINT BufferCount; HWND OutputWindow; BOOL W

php开发通用采集程序

php采集程序构建基本步骤: 采集程序是什么?获取远程数据(文字.图片.图片)并快速保存到本地或指定地址. 如天气预报(小偷程序): 远程获取-->替换内容-->展示给用户 如实时更新的新闻(采集内容): 远程获取-->提取内容-->分类存储-->读取内容--->展示内容 ************************* 设计PHP采集入库UML       列表正则:       终端正则: ************************** file_get_c