PHP写的爬虫，爬指定网站页面上的各种图片

打算用php实现一个爬虫，这是爬指定页面的图片的一段程序，其他的部分还没调试好，先把这个放上来

 1 <?php
 2 $string=file_get_contents("http://www.baidu.com");
 3 echo ‘size:‘.strlen($string)."</br>";
 4 $length=strlen($string);
 5 searchImg($string,$length);
 6
 7
 8
 9 function searchImg($string,$length){
10     for ($i=0; $i <$length ; $i++) {
11         if(($string[$i]==‘s‘)&&($string[$i+1]==‘r‘)&&($string[$i+2]==‘c‘)){
12             $index=$i;
13
14             $scr=searchScr($index,$length,$string);//为“http://.......***”的格式
15
16             $type=judgeType($scr);
17             //
18             if($type!="error"){
19                 echo ‘location:‘.$index.‘</br>‘;
20                     echo ‘scourse:‘.$scr.‘</br>‘;
21                     echo ‘type:‘.$type."</br>";
22             $filename=‘pic/‘.$index.‘.‘.$type;
23             $handle=fopen($filename,"a");
24
25             $scrString=file_get_contents($scr);
26             fwrite($handle, $scrString);
27             fclose($handle);
28         }
29
30     }
31
32 }
33 }
34
35 function judgeType($scr){
36 $length=strlen($scr);
37
38 if((($scr[$length-1]==‘f‘||$scr[$length-1]==‘F‘))&&(($scr[$length-2]==‘i‘)||($scr[$length-2]==‘I‘))){
39 return "gif";
40 }
41 else if ((($scr[$length-1]==‘g‘||$scr[$length-1]==‘G‘))&&(($scr[$length-2]==‘P‘)||($scr[$length-2]==‘p‘))) {
42      return "jpg";
43 }
44 else if((($scr[$length-1]==‘g‘||$scr[$length-1]==‘G‘))&&(($scr[$length-2]==‘n‘)||($scr[$length-2]==‘N‘))){
45     return "png";
46 }
47 else if((($scr[$length-1]==‘g‘||$scr[$length-1]==‘G‘))&&(($scr[$length-2]==‘E‘)||($scr[$length-2]==‘e‘))){
48     return "jpeg";
49 }
50 else{
51     return  "error";
52 }
53 }
54
55
56
57 function searchScr($index,$length,$string){
58     if($string[$index+5]==="h"){
59
60         $scr=‘‘;
61         }
62     else{
63
64         $scr=‘http:‘;
65         }
66
67     for ($i=$index+5; $i<$length ; $i++) {
68         if($string[$i]===‘"‘){
69             //$scr=$scr.‘"‘;
70             break;
71         }
72         else{
73         $scr=$scr.$string[$i];
74             }
75     }
76     return $scr;
77     //echo $scr;
78
79
80 }
81
82
83
84 ?>

主要说一些不足，动态生成的图片不能收录，css中的图片不能收录，这是接下来要完善的地方，爬虫就是不断完善出来的，php的字符串还是蛮累的。。。

时间： 2024-12-21 09:20:25

PHP写的爬虫，爬指定网站页面上的各种图片的相关文章

【Python3 爬虫】14_爬取淘宝上的手机图片

现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场,将鼠标移动到[女装/男装/内衣]这一栏目,我们可以看到更细类的展示假如我们现在需要爬取[羽绒服],那么我们进入到[羽绒服]衣服这个界面此时查看浏览器地址,我们可以看到网址复制到word或者其他地方会发生url转码我们可以选中[羽绒服模块的第1,2,3页进行网址对比],对比结果

如何使用robots禁止各大搜索引擎爬虫爬取网站

ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面) 2.下面我们就来说一说如何设置robots.txt文件 1).robots.txt文件必须是放在文件根目录上: 例如: ├─admin │ └─templates │

python爬虫——爬取知乎上自己关注的问题

与之前爬的网站图片的不同的是,现在爬取的是要自己个人的关注的东西,所以需要做到模拟登录.模拟登录的原理是登录网站后,在浏览器上获取保存的cookies信息,填充之后与请求一起发送. 如果前面的爬取图片的会爬取了,对于这个解析字符串的也没有多大问题了. 一直看着知乎上很多程序员把自己关注的人的答案爬下来之后整理来看,那个时候开始又开始对爬虫这个东西特别感兴趣,对一个妹纸在美国搭了搭了个环境,爬了Twitter后进行数据分析的行为更是佩服,对方是个妹纸,但不是程序员,嗯,她自己还说代码写得丑,用代码

如何屏蔽UC强制嵌入到你网站页面上的垃圾广告

不知道大家在手机上用UC浏览器的时候, 有没有注意到网页底部有时候会随机出现一大块广告如下图: 为了避免广告嫌疑, 我这里主要用 CSDN 的官网举例(其实已经处处可见了, 大部分网站页面都被注入过广告) 这里插了一个 Swoole 的官网, 也被注入了大家可能会觉得广告太常见了, 没什么好说的了, 不过这个广告却很特殊的. 因为绝大部分人不注意看, 都会以为这是 CSDN 投放的广告, 可能一些同学就会开骂了, 不过现实是你误会了, 这不是 CSDN 投放的广告, 而是犯贱的 UC 强制注

Python爬虫——爬取网站的图片

爬虫这东西最早出现在我大学计算机网络的课程上面,我们当时的老师人很好,期末不笔试,他说这东西笔试没什么用,对于一个年纪比较大的老师来讲,能提出这种方式,实在难得.当时在考虑做一个与网络有关的东西好,第一个想到的就是爬虫.想想也没想过用Java写过这种东西,所以当时是一般看一本爬虫的书一边敲代码,现在想起来有很多东西是没有想明白的--我当时爬的是刘末鹏的博客,把全部文章用分类爬了下来,在本地可以打开. 后面老师评价的时候就说,你这个只能爬这个,其实你应该让他智能些,让他可以爬图片,可以爬特定的内容

通过wireshark获取应用接口并使用爬虫爬取网站数据（二）

接上文找到接口之后连续查看了几个图片,结果发现图片都很小,于是用手机下载了一个用wireshark查看了一下url 之前接口的是 imges_min下载的时候变成了images soga,知道之后立马试了一下果然有效, 但是总不能一个一个的查看下载吧于是连夜写了个java爬虫下面是代码 package com.feng.main; import java.io.File; import java.io.FileOutputStream; import java.io.IOExceptio

《用Python写网络爬虫》示例网站搭建（框架+本书pdf+章节代码）

所用到的代码及工具示例网站源码+框架+本书pdf+章节代码链接: https://pan.baidu.com/s/1miHjIYk 密码: af35 环境 python2.7 win7x64 示例网站搭建 wswp-places.zip 书中站点源码web2py_src.zip 站点所使用的框架 1 解压web2py_src.zip2 然后到web2py/applications目录下 3 将wswp-places.zip解压到applications目录下 4 返回上一层目录,到web2p

通过wireshark获取应用接口并使用爬虫爬取网站数据（一）

前言:设计内容比较繁杂,包括apk反编译,wireshark使用,java爬虫, 一次无聊的时候朋友给我推送了一个比较绅士的app 然而当我想看第四个的时候这尼玛,(心中仿佛一万只草泥马奔腾而过),而且会员是需要付费的,这... 果断选择不付费, 先上百度看看,确实有官网,但是官网只留了一个下载app的链接(后来知道为什么了) 可是这还是不行,果断选择反编译反编译得到源码,但是它的数据全部是从.so动态链接库里面得到的,接口应该也在里面,后来试着反编译了一下.so文件,生成的是汇编,这难度太

使用python进行爬虫下载指定网站的图片

# coding=utf-8 import urllib import re def downloadPage(url): h = urllib.urlopen(url) return h.read() def downloadImg(content): pattern = r'src="(.+?\.jpg)" alt' #正则匹配图片标签 m = re.compile(pattern) urls = re.findall(m, content) for i, url in enume