php实现解析网页并下载图片到本地

<?php
//error_reporting(0);//关闭错误报告
include_once("simple_html_dom.php");//引入解析库
$url='http://www.w3cschool.cc/mongodb/mongodb-window-install.html';
$html=file_get_html($url);
while($url[strlen($url)-1]!='/')$url=substr($url,0,-1);//获得上层目录
if(!is_dir($filepath)){mkdir($_SERVER['DOCUMENT_ROOT']."/imgtmp/",1);}//创建目录
foreach($html->find('img') as $im)
{
	$p=$im->src;
	if($p[0]=='/'||$p[0]=='\\')$p=$url."..".$p;//补全url
	file_put_contents("imgtmp/".md5(microtime()).".".substr($p,-3),file_get_contents($p));
}
?>

时间： 2024-10-13 19:06:03

php实现解析网页并下载图片到本地的相关文章

爬取今日头条历史图集将信息保存到MongDB，并且下载图片到本地

写在前面:学习<崔庆才_Python3爬虫入门到精通课程视频>动手写的小项目. (一) 分析页面访问今日头条页面(https://www.toutiao.com/)在输入框中输入要搜索的关键字,搜索出的页面点击图集.要爬取的就是这里的所有图集. 查看页面的URL可以发现这是一个POST请求,然后我们就检查页面找到POST请求包,进行分析. 这个就是POST请求服务器返回的response 这是一个JSON格式的数据,复制下来放在解析器中查看.(使用jsonView) 可以看到data字段中的

通过scrapy内置的ImagePipeline下载图片到本地

1.通过scrapy内置的ImagePipeline下载图片到本地 1.通过scrapy内置的ImagePipeline下载图片到本地 1)在settings.py中打开 ITEM_PIPELINES 的注释,在 ITEM_PIPELINES 中加入 ITEM_PIPELINES = { 'spider_first.pipelines.SpiderFirstPipeline': 300, 'scrapy.pipelines.images.ImagesPipeline':5, #后面的数字代表执

通过HttpURLConnection下载图片到本地（一）

一.背景说明现在我做的系统中,需要有一个下载附件的功能,其实就是下载图片到本地中.相应的图片保存在多媒体系统中,我们只能拿到它的资源地址(url),而不是真实的文件. 这里记录的是下载单个图片. 二.代码 1.html /* * 下载选中的附件 */ $("#merchantApproval-annes-center-tb .downloadButton").click(function(){ //获取选中的行,此行包含了附件的相关信息 var row = $("#merc

七牛测试域名过期后批量下载图片到本地

在网上查询了一下,七牛云的网站上是不支持直接下载所有的图片的,需要借助他们的qshell工具来批量下载图片文档在此: https://developer.qiniu.com/kodo/tools/1302/qshell 下载后解压,包含以下文件 1 2 3 4 5 6 7 8 9 10 [email protected]  /Users/jim/Downloads/qshell-v2.1.8   ll  18:13:40 total 99824 [email protected] 8

下载网页中的图片到本地

简单的一个下载如下 : string url = "http://avatar.csdn.net/A/2/6/2_yefengzhixia.jpg"; string filepath = "D:\\pic.jpg"; WebClient mywebclient = new WebClient(); mywebclient.DownloadFile(url, filepath); MessageBox.Show("OK"); 下面演示一个从网站中下

[python][爬虫]从网页中下载图片

说明:仅为测试下载图片.正则表达式测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子以下代码将第一页的图片全部下载到本程序根目录 #!/usr/bin/env python #! -*- coding: utf-8 -*- import urllib,urllib2 import re #返回网页源代码 def getHtml(url): html = urllib2.urlopen(url) srcCode = html.read() return srcCode def getImg(

Python学习---网页爬虫[下载图片]

爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.urlretrieve()下载图片,并且可以重新命名,利用%S 5.应该是运营商有所限制,所以未能下载全部的图片,不过还是OK的 URL分析: 源码: #coding=utf-8 import re import urllib def getHtml(url): page=urllib.urlopen(u

爬取网页中的图片到本地

library(rvest) library(downloader) url <- 'http://www.nipic.com/show/15419595.html' web <- read_html(url) link <- web %>% html_nodes("img") %>% html_attr("src") for(i in 1:length(link)){ download(link[i],paste("D://

利用Node 搭配uglify-js压缩js文件，批量下载图片到本地