php采集电影天堂首页电影下载地址

<?php
// 目标url http://www.dytt8.net/
set_time_limit(0);
define(‘SCRIPT_ROOT‘,dirname(__FILE__).‘/‘);

$result_list = array();

$domain = "http://www.dytt8.net";
$html = file_get_contents($domain);
$matchs = array();
preg_match_all("/\<a href=\‘(\/html\/gndy.*)\‘>.*<\/a\>/",$html,$matchs);
if ($matchs[1]) {
    foreach ($matchs[1] as $key => $one) {
        $sub_url = $domain.$one;
        $result = getUrlByPattern($sub_url);
        $result_list[] = $result;
    }
}

function getUrlByPattern($url)
{
    $html = file_get_contents($url);
    preg_match("/ftp:\/\/[^\<\"]*/",$html,$sub_url);
    return $sub_url;
}
?>

晚上想看电影于是写了一段简单的采集，练习一下正则

时间： 2024-10-01 22:22:46

php采集电影天堂首页电影下载地址的相关文章

实例练习----电影天堂抓取下载链接

废话不多说,直接上代码: package com.sysker.util; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.util.Date; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jso

BeautifulSoup爬取电影天堂全站电影资源

#爬取电影天堂全站电影资源链接#功能:#1.获取电影天堂资源下载链接并输出#2.所有链接保存为一个csv文件 import timeimport requestsfrom bs4 import BeautifulSoupimport csv def spider(url): global page, No, fobj try: page += 1 print("第{}页".format(page)) # time.sleep(1) #获取网页链接并读取 html = requests.

爬取电影天堂最新电影的名称和下载链接

此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_useragent import UserAgent from lxml import etree import re import time import

【PY】没有电影看？来教你用Python爬取电影天堂最新电影！

项目开始第一步仍然是创建scrapy项目与spider文件切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019 内容分析打开目标网站(分类是2019年上映的电影),分析我们需要的数据进入页面是列表的形式就像豆瓣电影一样,然后我们点进去具体页面看看这个页面就是我们需要拿到的内容页面,我们来看我们需要哪些数据(

python爬虫抓取电影天堂最新电影

该小脚本实现对电影天堂网站的最新电影查找. from bs4 import BeautifulSoup import urllib import re url= 'http://www.ygdy8.net/html/gndy/dyzz/index.html' moive_url_list = [] moive_name_list = [] request = urllib.urlopen(url) response = request.read() response = unicode(r

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. import requests import re from fake_useragent import UserAgent import random import time import pymysql from hashlib import md5 from lxml import etree class DianyingtiantangSpider(object): def __init__(se

夺命雷公狗---DEDECMS----27dedecms电影的下载地址的完成

python爬虫--爬取某网站电影下载地址

前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用到的网址仅供交流学习使用,如有不妥,请联系删除. 背景:自己有台电脑要给老爸用,老爷子喜欢看一些大片,但是家里网络环境不好,就想批量下载一些存到电脑里.但是目前大部分的网站都是这样的, 需要一个个地点进去,才能看到下载地址如果我要下载100部电影,那肯定手都要点断了,于是便想把这些地址给爬取出来,

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

1.昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url 2.今天是对电影url 进行再次解析获取下载地址并写入文件调用函数和类多线程还没实现一步步来吧 3.问题:我想实现的是先对菜单进行创建文件目录然后每个目录下以获取的电影名称.txt 作为文件文件内是下载连接,但是创建一级菜单文件夹没问题用OS模块就可以创建在写入电影名称.txt时候出问题报错我以为是编码问题 f.open