PHP - 抓取电视剧资源

<?php
/**
 * 获取下载url
 * @return [type] [description]
 */
function getVedioDwonloadUrl() {
	for ($i=1; $i <= 48; $i++) {
		$url = ‘http://www.btdog.com/play/34821-1-‘ . $i . ‘.html‘;
		$urlContent[] = patternHtml( getUrlContent( $url ) );
	}
	return $urlContent;
}

/**
 * 匹配内容
 * @param  [type] $content [description]
 * @return [type]          [description]
 */
function patternHtml( $content ) {
	//Analytical content.
	$pattern = ‘/<div.*?class="pdcc.*?liji"><a.*?href="([\s\S]*?)"><img.*?src="([\s\S]*?)"><\/a><\/div>/‘;
	preg_match_all( $pattern, $content, $contentArray);
	return $contentArray[1][0];
}

/**
 * 获取html内容
 * @param  [type] $url [description]
 * @return [type]      [description]
 */
function getUrlContent( $url ) {
	return file_get_contents( $url );
}

/**
 * 写入文件
 * @param  [type] $str [description]
 * @return [type]      [description]
 */
function writeFile( $arr ) {
	foreach ($arr as $v) {
		file_put_contents( ‘C:\\Users\\Administrator\\Desktop\\1.txt‘, $v . EOF, FILE_APPEND );
	}
}

$start_time=microtime(true);
$temp = getVedioDwonloadUrl();
$end_time=microtime(true);
$total=round( $end_time-$start_time, 2 );
echo "总耗时:$total<br/>";
print_r( $temp );

  

时间: 2024-07-28 19:45:09

PHP - 抓取电视剧资源的相关文章

python3 抓取网页资源的 N 种方法

python3 抓取网页资源的 N 种方法 1.最简单  urllib.request response = urllib.request.urlopen() html = response.read() 2.使用 Request  urllib.request   req = urllib.request.Request() response = urllib.request.urlopen(req) the_page = response.read() 3.发送数据    urllib.pa

开源爬虫 ── 专业、强大的万维网资源定向抓取、爬抓工具

网络爬虫 又称网页蜘蛛.网络机器人.在 FOAF 社区常称网页追逐者.网络爬虫 是一种按照一定规则,自动抓取万维网信息的程序或脚本.另外一些不常使用名称还有蚂蚁.自动索引.模拟程序或蠕虫. 随着网络的迅速发展,万维网成为大量信息的载体,如何有效提取并利用这些信息成为一个巨大挑战.搜索引擎 (Search Engine),譬如:传统搜索引擎 AltaVista.Yahoo!.Google.百度.360 搜索.好搜.搜狗.Bing 等作为辅助人们检索信息的工具,已成为用户访问万维网的入口和指南.但是

python自然语言处理1——从网络抓取数据

python自然语言处理1--从网络抓取数据 写在前面 本节学习python2.7 BeautifulSoup库从网络抽取数据的技术,检验之简而言之就是爬虫技术.网络编程是一门复杂的技术,在需要基础的地方,文中给出的链接地址,都是很好的教程,可以参考,我在这里不在重复发明轮子.本节的主旨在于: 帮助快速掌握基本爬虫技术,形成一条主线,能为自己的实验构造基础数据.掌握爬虫技术后,可以从网络抓取符合特定需求的数据供分析,这里学习的爬虫技术适用于数据挖掘.自然语言处理等需要从外部挖掘数据的学科. 1.

java中用jsoup抓取网页源码,并批量下载图片

一.导入jsoup的核心jar包jsoup-xxx.jar jar包下载地址:jsoup-1.8.2.jar 中文API地址:http://www.open-open.com/jsoup/parsing-a-document.htm 二.java中用jsoup抓取网页源码,并批量下载图片 package com.dgh.test; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; i

使用 Intel GPA 与 分析3D程序和抓取模型

原文链接在这里 http://dev.cra0kalo.com/?p=213 背景信息 Intel的GPA本身是一款图形分析软件,并没有设计从3D程序里抓取模型资源的功能,但这里作者是通过hook GPA应用,让他可以把捕捉到的顶点缓冲和索引缓冲. Intel GPA 64位的下载链接 http://registrationcenter-download.intel.com/akdlm/irc_nas/4674/gpa_14.3_release_231370_windows_x64.msi In

利用Selenium制作python数据抓取,以及对Selenium资源介绍

当当当~第三篇博客开始啦~ 这次的话题是数据抓取.终于到了核心部分的探讨,我的心情也是非常激动啊!如果大家baidu或者google(如果可以的话)数据抓取或者data crawling,将会找到数以千计的例子.但是大多数的代码非常的冗长,并且许多代码还是抓取静态数据之后,对动态JS写成的数据却毫无办法.或者,利用HTML解析网址后,再找到JS写的数据页面来寻找到所想要的数据. 但是!不知各位是否有发现过,如果打开chrome或者safari或者各种浏览器的审查元素.网页上能看到的数据,其实都会

Adreno Profiler分析任意安卓游戏特效+抓取资源

听说可以抓去任意游戏特效..保存下,有空研究 AdrenoProfiler 下载地址 Adreno Profiler分析任意安卓游戏特效+抓取资源 教程

抓取邮箱及资源

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using System.IO; using System.Net; u

J哥--------------------------分享好东西:android抓包工具fiddler使用介绍 抓取 手机APP 中资源。

本文地址:http://blog.csdn.net/u011733020 首先,写这个只是为了学习,不是要做什么违法的事情,如果有问题,有关部门 请联系我,立马删除. 不要查我水表. 正题:这里介绍 抓包的关键,Fiddler  ,Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯. 我们就是用这款软件抓取 ,我们手机app 访问的 资源路径 的. 下面 我们拿实例 来演示下,怎么用fiddler 抓取数据.(以某拍为例吧). 环境: win7