PHP电影小爬虫(2)

学习了别人的爬虫后自己改的一个，算是又回顾了一下php的使用

我们来利用simple_html_dom的采集数据实例，这是一个PHP的库，上手很容易。
simple_html_dom 可以很好的帮助我们利用php解析html文档。通过这个php封装类可以很方便的解析html文档，对其中的html元素进行操作 (PHP5+以上版本)

下载地址：https://github.com/samacs/simple_html_dom

还是http://paopaotv.com/tv-type-id-5-pg-1.html 这个字母版面 1 <?php

 2 set_time_limit(0);
 3 header("Content-Type:text/html;charset=utf-8");
 4 require(‘../../web crawler/simple_html_dom-master/simple_html_dom.php‘);
 5 require ‘./config.php‘;
 6 $DBNA="crawler";
 7 mysql_select_db($DBNA,$link);
 8 //获取html数据转化对象
 9 $html = file_get_html(‘http://paopaotv.com/tv-type-id-5-pg-1.html‘);
10
11 //A-Z的字母列表每条数据是在id=letter-focus的div内class=letter-focus=item的
12 //dl标签内，用find方法查找即为
13 $ListData = $html->find("#letter-focus .letter-focus-item");
14 //$listData为数组对象
15 $count=0;
16 foreach($ListData as $key=>$EachLetterData){
17     $LetterData = $EachLetterData->find("dd a");
18     foreach ($LetterData as $Letterinfo){
19         $count++;
20         //影片名称
21         $filmName = $Letterinfo->plaintext;
22         //echo "<br/>";
23         //影片地址
24         $filmUrl = $Letterinfo->href;
25         $filmUrl="http://www.paopaotv.com".$filmUrl;
26         //echo "<br/>";
27         //一部影片的地址内容
28         $filmInfo = file_get_html($filmUrl);
29         //所找信息
30         $filmDetail = $filmInfo->find(".info dl");
31         foreach($filmDetail as $film){
32             $info = $film->find("dd");
33             foreach($info as $childinfo){
34                 $row[] = $childinfo->plaintext;
35             }
36         }
37         $sql = "insert into movie2(name,url,actor,status,form,location,label,director,time,year) values(‘{$filmName}‘,‘{$filmUrl}‘,
38         ‘{$row[0]}‘,‘{$row[1]}‘,‘{$row[2]}‘,‘{$row[3]}‘,‘{$row[4]}‘,‘{$row[5]}‘,‘{$row[6]}‘,‘{$row[7]}‘)";
39         echo "<pre>";
40         echo $sql."<br/>";
41         mysql_query($sql);
42         $row=null;
43         //if($count==3){goto a;}
44         echo "<br/>";
45     }
46     //echo "<br/>";
47 }
48 a:关于自己遇到的问题：　字符编码的问题，uft-8又一次坑了我，之后在config.php中加了set names uft8才解决，问题是有时候加就灵，有时候就没有。。。菜鸟语录

时间： 2024-11-11 10:46:30

PHP电影小爬虫(2)的相关文章

今天来做一个PHP电影小爬虫。

今天来做一个PHP电影小爬虫.我们来利用simple_html_dom的采集数据实例,这是一个PHP的库,上手很容易.simple_html_dom 可以很好的帮助我们利用php解析html文档.通过这个php封装类可以很方便的解析html文档,对其中的html元素进行操作 (PHP5+以上版本)下载地址:https://github.com/samacs/simple_html_dom下面我们以 http://www.paopaotv.com 上的列表页 http://paopaotv.com

豆瓣电影小爬虫

很早前就想用 Golang 写点"实用的"东西,兴趣不是目的,学总归要致用.而<Go语言圣经>中有一些例子比较有实际意义,譬如爬虫. 刚好我对电影还比较有兴趣,且习惯性地在下或看某部电影前都会去豆瓣看看评分,所以我想,何不撸个小爬虫,来遍历豆瓣的所有电影页面以采集电影信息并按评分由高到低来排个序看看有哪些高评分电影我还没看过呢? 趁自己不瞎忙,索性撸起来. 代码实现基本上还是参考圣经里的那套.而作为爬虫,自然免不了要引入 goquery 这样的三方库,只是我还不熟 jQue

Python小爬虫——抓取豆瓣电影Top250数据

写LeetCode太累了,偶尔练习一下Python,写个小爬虫玩一玩~ 确定URL格式先找到豆瓣电影TOP250任意一页URL地址的格式,如第一页为:https://movie.douban.com/top250?start=0&filter=,分析该地址: https:// 代表资源传输协议使用https协议: movie.douban.com/top250 是豆瓣的二级域名,指向豆瓣服务器: /top250 是服务器的某个资源: start=0&filter= 是该URL的两个参数,

Java豆瓣电影爬虫——小爬虫成长记（附源码）

以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候,总感觉这很黑科技.正好这次借助梳理Spring MVC的机会,想自己弄个小爬虫,简单没关系,有些小bug也无所谓,我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了.有Exception就去解决,可能是一些API使用不当,也可能是遇到了http请求状态异常,又或是数据库读写有问题,就是在这

python之小爬虫

#!/usr/bin/python #抓取网页上的图片保存 import urllib import urllib.request //python3版本将urllib2分成urllib.request和urllib.error import re def gethtml(url): page = urllib.request.urlopen(url) html = page.read() return html def getImages(html): reg = r'src="(.*?\.j

Python网页小爬虫

最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储.这是一个在线歌曲网站的爬虫,网站名字就不说了,此贴目的是技术交流,请不用做其他用途! 相关技术点:http协议.js.AES.文件.文件夹操作.正则表达式.数据库技术.SQL -------------------------------------------分割线以下为设计思路------

Python 基础学习网络小爬虫

<span style="font-size:18px;"># # 百度贴吧图片网络小爬虫 # import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imgli

初学nodejs---http小爬虫

1 //HTTP小爬虫 2 //×××××类似 $.AJAX×××××× 3 4 5 var http = require('http'); //加载http模块 6 7 var cheerio = require('cheerio');//加载第三方模块 cheerio 类似JQuery 8 9 // 安装方法 npm install cheerio 10 11 12 function printCourseInfo(courseData) {//打印函数传入获取数据 13 courseDa

爬虫入门实战，知乎小爬虫

相比于爬虫框架,知乎小爬虫,更加适合初学者,尤其是想要了解爬虫技术细节.实现自己编写爬虫需求的初学者. 1. 谈爬虫工程师的价值大数据时代已到,数据越来越具有价值了,没有数据寸步难行,有了数据好好利用,可以在诸多领域干很多事,比如很火的互联网金融.从互联网上爬来自己想要的数据,是数据的一个重要来源,而且往往是必不可少的来源.所有,目前,爬虫工程师是一个非常吃香的职位,工资往往都不低,就是要耐得住寂寞了.那爬虫工程师的价值也就是能稳定的.高效的和实时的带来数据.这里推荐看两篇文章: http:/