php采集电影天堂首页电影下载地址

<?php
// 目标url http://www.dytt8.net/
set_time_limit(0);
define(‘SCRIPT_ROOT‘,dirname(__FILE__).‘/‘);

$result_list = array();

$domain = "http://www.dytt8.net";
$html = file_get_contents($domain);
$matchs = array();
preg_match_all("/\<a href=\‘(\/html\/gndy.*)\‘>.*<\/a\>/",$html,$matchs);
if ($matchs[1]) {
    foreach ($matchs[1] as $key => $one) {
        $sub_url = $domain.$one;
        $result = getUrlByPattern($sub_url);
        $result_list[] = $result;
    }
}

function getUrlByPattern($url)
{
    $html = file_get_contents($url);
    preg_match("/ftp:\/\/[^\<\"]*/",$html,$sub_url);
    return $sub_url;
}
?>

晚上想看电影于是写了一段简单的采集,练习一下正则

时间: 2024-10-01 22:22:46

php采集电影天堂首页电影下载地址的相关文章

实例练习----电影天堂抓取下载链接

废话不多说,直接上代码: package com.sysker.util; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.util.Date; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jso

BeautifulSoup爬取电影天堂全站电影资源

#爬取电影天堂全站电影资源链接#功能:#1.获取电影天堂资源下载链接并输出#2.所有链接保存为一个csv文件 import timeimport requestsfrom bs4 import BeautifulSoupimport csv def spider(url): global page, No, fobj try: page += 1 print("第{}页".format(page)) # time.sleep(1) #获取网页链接并读取 html = requests.

爬取电影天堂最新电影的名称和下载链接

此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_useragent import UserAgent from lxml import etree import re import time import

【PY】没有电影看?来教你用Python爬取电影天堂最新电影!

项目开始 第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019 内容分析 打开目标网站(分类是2019年上映的电影),分析我们需要的数据 进入页面是列表的形式就像豆瓣电影一样,然后我们点进去具体页面看看 这个页面就是我们需要拿到的内容页面,我们来看我们需要哪些数据(

python爬虫抓取电影天堂最新电影

该小脚本实现对电影天堂网站的最新电影查找. from bs4 import BeautifulSoup  import  urllib import  re url= 'http://www.ygdy8.net/html/gndy/dyzz/index.html' moive_url_list = [] moive_name_list = [] request = urllib.urlopen(url) response = request.read() response = unicode(r

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. import requests import re from fake_useragent import UserAgent import random import time import pymysql from hashlib import md5 from lxml import etree class DianyingtiantangSpider(object): def __init__(se

夺命雷公狗---DEDECMS----27dedecms电影的下载地址的完成

我们现在要完成的是电影的下载地址这里: 我们的下载地址都是放在我们的dede_addonmovie(附加表)里面去才可以的,因为下载地址的个数是不能确定的,所以我们就将所有的下载地址存放到一个字段里面. 我们的下载地址存放的形式可以用  |   号来进行保存,如下所示: 3GP|人狗情未了01|176X144|http://www.showtp.com/01.3gp 3GP|人狗情未了02|176X144|http://www.showtp.com/02.3gp 3GP|人狗情未了03|176X

python爬虫--爬取某网站电影下载地址

前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用到的网址仅供交流学习使用,如有不妥,请联系删除. 背景:自己有台电脑要给老爸用,老爷子喜欢看一些大片,但是家里网络环境不好,就想批量下载一些存到电脑里.但是目前大部分的网站都是这样的, 需要一个个地点进去,才能看到下载地址 如果我要下载100部电影,那肯定手都要点断了,于是便想把这些地址给爬取出来,

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

1.昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单 然后获取每个菜单下的电影url  2.今天是对电影url 进行再次解析获取下载地址 并写入文件  调用函数和类多线程还没实现 一步步来吧 3.问题:我想实现的是先对菜单进行创建文件目录 然后每个目录下以获取的电影名称.txt 作为文件 文件内是下载连接,但是创建一级菜单文件夹没问题 用OS模块就可以创建 在写入电影名称.txt时候出问题 报错 我以为是编码问题 f.open