php抓取一个页面的图片

思路:

1.找到一个页面

2.正则过滤所有的img

3.正则过滤出所有的src的属性

4.获取链接信息,写入文件 file_get_contents(), file_put_contents()

5.在cli模式下运行代码(浏览器运行可能内存爆掉,或运行超时)

代码:

 1 <?php
 2     //过滤所有的img
 3     $url = "http://www.ivsky.com/";
 4     $str = file_get_contents($url);
 5     $preg = ‘/<img[^>]*\/>/‘;
 6     preg_match_all($preg, $str, $matches);
 7     $matches = $matches[0];
 8
 9     //获取src中的链接
10     $arr = [];
11     foreach($matches as $v){
12         $preg = ‘/http:\/\/.*.jpg/‘;
13         preg_match_all($preg, $v, $match);
14         $arr[] = $match[0][0];
15     }
16     //文件保存地址
17     $dir = ‘E:/abs/img/‘;
18
19     foreach($arr as $k => $v){
20         //图片名称
21         $name = $dir . $k . ‘.jpg‘;
22         //下载
23         download($name, $v);
24     }
25     function download($name, $url){
26         if(!is_dir(dirname($name))){
27             mkdir(dirname($name));
28         }
29         $str = file_get_contents($url);
30         file_put_contents($name, $str);
31         //输出一些东西,要不窗口一直黑着,感觉怪怪的
32         echo strlen($str);
33         echo "\n";
34     }

注:仅供学习,如果侵犯到某人权利请联系我我.

时间: 2024-10-25 19:06:56

php抓取一个页面的图片的相关文章

scrapy抓取的页面中文会变成unicode字符串

不了解编码的,需要先补下:http://www.cnblogs.com/jiangtu/p/6245264.html 现象:从scrapy抓取的页面中文会变成unicode字符串,如下图 2017-03-28 23:00:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lagou.com/jobs/2617468.html> {'describe': [u'<div>\n <p>\u5c97\u

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 # Author: xixihuang 5 # Date : 2016/08/28 10:12 AM 6 # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. 7 8 import os 9 import uuid 10 import urllib2 11 import cookielib 12 '''获取

Python3抓取百度贴吧图片

我抓取的地址是http://tieba.baidu.com/p/3125473879?pn=2,这个帖子共有82页左右,下面的代码主要抓取82页的所有图片,具体代码如下: """抓取百度贴吧图片""" #导入模块 import re import urllib from urllib.request import urlopen,urlretrieve #获取抓取页面的源代码 def getHtml(url):     page = urlope

Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接

前言:这是Java爬虫实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 注:文末有我抓取到的整个列表的下载链接(包括:电影名称和迅雷下载链接) 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,

Java爬虫实战(一):抓取一个网站上的全部链接

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测试用例就是自动抓取我的博客网站(http://www.zifangsky.cn)的所有链接. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<

使用Jsoup抓取网站上的图片、链接

以 http://www.zgfjqw.roboo.com/ 中国风景区网为例,我们想要抓取首页的所有图片. 使用Jsoup可以轻松实现. 代码及注释如下: 1 package test; 2 import java.io.*; 3 import java.net.URL; 4 import java.io.IOException; 5 import org.jsoup.Jsoup; 6 import org.jsoup.nodes.Document; 7 import org.jsoup.no

python爬虫抓取色影无忌月赛获奖图片

因为平时爱好摄影,所以喜欢看看色影无忌论坛的获奖摄影作品,所以写了个小script用来抓取上面的获奖图片,亲自测试可以使用. # -*- coding: UTF-8 -*- #作者Rocky Chen import re, urllib, sys, os, time, urllib2, cookielib, string class Download: def __init__(self, url): self.url=url def getPhotos(self): #获取的是跳转收的各个页面

Winform实现抓取web页面内容的方法

本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法,代码简洁易懂,非常实用!分享给大家供大家参考. 具体实现代码如下: WebRequest request = WebRequest.Create("http://1.bjapp.sinaapp.com/play.php?a=" + PageUrl); WebResponse response = request.GetResponse(); Stream resStream = response.GetRespo

轻而易举的抓取一个web站点

今天一位网友突然在deepin群里问怎么抓取一个站点.他自己用的wget尝试了一下,太繁琐.失败了.有网友建议他学习爬虫技术的,也有说右键保存的,直到有个网友提到了webhttrack这个工具. webhttrack这个工具算是一个简单的,只需要点击几个按钮就能抓取整个站点的工具.简单又好用.本来是不打算写博的,无奈那位网友又没解决.随写博客以示之.webhttrack这个工具在deepin的官方源里面就有,所以不必下载deb包,也不需要添加源或者下载源码编译安装.我能确定的是在ubuntu的官