php 模拟抓去页面一些函数整理

curl 模拟提交post数据

/*
$url @ 提交地址
$postData 例
$postData = array(
	‘key‘=>‘value‘,
);
*/
function curlPost($url,$postData=array()) {
	if(empty($url)) return false;
	$o="";
	foreach ($postData as $k=>$v){
		$o.= "$k=".urlencode($v)."&";
	}
	$postData=substr($o,0,-1);
	$ch = curl_init();

	$timeout = 5;
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); 

	curl_setopt($ch, CURLOPT_POST, 1);
	curl_setopt($ch, CURLOPT_HEADER, 0);
	curl_setopt($ch, CURLOPT_URL, $url);
	curl_setopt($ch, CURLOPT_POSTFIELDS, $postData);
	$contents = curl_exec($ch);
	return $contents;
}

CURL 抓取页面

/*
 * $url @ 抓去页面的地址
 */
function getcontents($url) {
	$ch = curl_init();
	$timeout = 5;
	curl_setopt($ch, CURLOPT_URL, $url);
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
	$contents = curl_exec($ch);
	return $contents;
}

正则抓去Tabel 内容

/*
 *$table  @ 页面抓取过来的内容
 */
function get_td_array($table) {
	// 去掉 HTML 标记属性
	$table = preg_replace("‘<table[^>]*?>‘si", "", $table);
	$table = preg_replace("‘<tr[^>]*?>‘si", "", $table);
	$table = preg_replace("‘<td[^>]*?>‘si", "", $table);
	$table = str_replace("</tr>", "{tr}", $table);
	$table = str_replace("</td>", "{td}", $table);
	// 去掉 HTML 标记

	$table = preg_replace("‘<[\/\!]*?[^<>]*?>‘si", "", $table);

	// 去掉空白字符
	$table = preg_replace("‘([\r\n])[\s]+‘", "", $table);
	$table = str_replace(" ", "", $table);
	$table = str_replace(" ", "", $table);

	$table = explode(‘{tr}‘, $table);
	array_pop($table);
	foreach ($table as $key => $tr) {
		$td = explode(‘{td}‘, $tr);
		array_pop($td);
		$td_array[] = $td;
	}
	return $td_array;
}
时间: 2024-11-14 12:22:01

php 模拟抓去页面一些函数整理的相关文章

php 正则抓去页面函数整理

整理了下抓取页面的一些函数 方便以后使用  //抓取页面 function getcontents($url) { $ch = curl_init(); $timeout = 5; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); $contents = curl_exec($ch

2015-8-25-关于后端的知识以及常用函数整理

首先结构一般是分为B/S(Browser/Server)和C/S(Client/Server)的,我们所用的是基于B/S结构的. 其中这里的B主要是一些控件的组成的页面,主要是由JScript控制的, 其中的S主要是由SSL代码控制的,又分为Server Script和Data Sources,首先来说说两者的一些区别(Server Script用SS代替,Data Sources用DS代替): 对于我们这个LIMS系统来说,最常用的操作就是对数据库的增.删.改.查,其中的“查”,也就是从数据库

一些常用的PHP函数(整理)

/** * 邹颢 * [email protected] */ /** * 获取当前毫秒 * @return string */ function get_millisecond() { $t = explode ( " ", microtime () ); $t = $t [1] . ($t [0] * 1000); $t2 = explode ( ".", $t ); return $t2 [0]; } /** * curl模拟http/https post请求

纯js页面跳转整理

js方式的页面跳转1.window.location.href方式    <script language="javascript" type="text/javascript">           window.location.href="http://updn.cn";     </script>2.window.navigate方式跳转   <script language="javascript

NIOS II常用函数整理-感谢slam原创

IO操作函数函数原型:IORD(BASE, REGNUM) 输入参数:BASE为寄存器的基地址,REGNUM为寄存器的偏移量函数说明:从基地址为BASE的设备中读取寄存器中偏移量为REGNUM的单元里面的值.寄存器的值在地址总线的范围之内.返回值: - 函数原型:IOWR(BASE, REGNUM, DATA)输入参数:BASE为寄存器的基地址,REGNUM为寄存器的偏移量,DATA为要写入的数据函数说明:往偏移量为REGNUM寄存器中写入数据.寄存器的值在地址总线的范围之内.返回值: - 函数

Python内置的字符串处理函数整理

Python内置的字符串处理函数整理 作者: 字体:[增加 减小] 类型:转载 时间:2013-01-29我要评论 Python内置的字符串处理函数整理,收集常用的Python 内置的各种字符串处理 函数的使用方法 str='python String function' 生成字符串变量str='python String function' 字符串长度获取:len(str)例:print '%s length=%d' % (str,len(str)) 字母处理全部大写:str.upper()全

Js slice函数整理

今天做项目的时候碰到了,随手整理一下备用. ----slice 把元素从数组中筛选出来的函数,slice(开始位置,结束位置) --------------------------一下摘自W3C-------------------------------- start 必需.规定从何处开始选取.如果是负数,那么它规定从数组尾部开始算起的位置.也就是说,-1 指最后一个元素,-2 指倒数第二个元素,以此类推. end 可选.规定从何处结束选取.该参数是数组片断结束处的数组下标.如果没有指定该参数

[Unity菜鸟] Unity鼠标双击,鼠标函数整理(未完)

1. 鼠标双击 ? 1 2 3 4 5 6 7 8 9 void OnGUI()    {        Event Mouse = Event.current;        if (Mouse.isMouse && Mouse.type == EventType.MouseDown && Mouse.clickCount == 2)        {            // 调用你的函数            print("Double Click&quo

php函数整理

php usleep() 函数延迟代码执行若干微秒. unpack() 函数从二进制字符串对数据进行解包. uniqid() 函数基于以微秒计的当前时间,生成一个唯一的 ID. time_sleep_until() 函数延迟代码执行直到指定的时间. time_nanosleep() 函数延迟代码执行若干秒和纳秒. sleep() 函数延迟代码执行若干秒. show_source() 函数对文件进行语法高亮显示. strip_whitespace() 函数返回已删除 PHP 注释以及空白字符的源代