简单爬虫获取电影资源

代码如下:# -*- coding: utf-8 -*-:__authoer__ = "wilsoon"

import urllibimport reimport MySQLdb

conn = MySQLdb.connect(host=‘192.168.112.128‘,port=3306,user=‘movie‘,passwd=‘movie‘,db=‘movie‘,charset=‘utf8‘,)cur = conn.cursor()

def  GetList(pn):     html = urllib.urlopen(‘http://www.piaohua.com/html/dongzuo/list_%d.html‘ %pn).read()#获取页面电影资源     reg = r‘<dd><strong><a href="(.*?)">‘#正则匹配某一页中每一部电影的访问地址,即:<dd><strong><a href="/html/dongzuo/2017/0409/31921.html">,具体的电影访问地址用(.*?)表示     return  re.findall(reg,html)#在html中查找reg中匹配到的电影访问地址以列表的形式返回‘‘‘

[‘/html/dongzuo/2017/0409/31924.html‘, ‘/html/dongzuo/2017/0409/31921.html‘, ‘/html/dongzuo/2017/0408/31918.html‘, ‘/html/dongzuo/2017/0315/31856.html‘, ‘/html/dongzuo/2017/0320/31873.html‘, ‘/html/dongzuo/2017/0320/31872.html‘, ‘/html/dongzuo/2017/0318/31869.html‘, ‘/html/dongzuo/2017/0221/31788.html‘, ‘/html/dongzuo/2017/0310/31849.html‘, ‘/html/dongzuo/2017/0310/31848.html‘, ‘/html/dongzuo/2017/0306/31833.html‘, ‘/html/dongzuo/2017/0303/31822.html‘, ‘/html/dongzuo/2017/0228/31815.html‘, ‘/html/dongzuo/2017/0215/31773.html‘]

‘‘‘def GetContent(url):     #----------title---------------     html = urllib.urlopen(‘http://www.piaohua.com/%s‘ %url).read()#此处的url为GetList函数返回的列表元素,所以此处的html表示具体某一部电影访问地址     reg = r‘<h3>(.*?)</h3>‘ #获取电影名字,名字用(.*?)表示,比如<h3>金刚:骷髅岛HD1280高清</h3>      title = re.findall(reg,html)[0] #在html中匹配reg电影名字,在某部电影的页面电影名字匹配‘<h3>(.*?)</h3>‘只可能是唯一的,所以在html中找到后列表元素只有一个,故用re.findall(reg,html)[0]获取电影名字,再赋值给title变量
     # ----------content------------------     reg = r‘下载页面</div>(.*?)<strong><span style="color: #ff0000‘ #获取某一部电影的内容,用‘下载页面</div>(.*?)<strong><span style="color: #ff0000">‘匹配     reg = re.compile(reg,re.S)#常规下re本身不能匹配换行符(\n),所以用re.S(大写S)来编译上面查找匹配到的正则表达式,使reg匹配所有内容     content = re.findall(reg,html)[0] #这里同样获取列表的第一个元素表示内容     # ---------------下载地址---------------------     reg = r‘下载页面</div>(.html)‘[0] #匹配电影的下载地址     reg = r‘line-height: 18px" width="100%"><a href="(.*?)">‘#在电影的具体页面中查找电影的下载地址找到后并赋值给reg     link = re.findall(reg,html)[0]#同样在含有电影下载地址的列表中获取下载地址(即列表的第一个元素)     return title,content,link #返回title、content、link

for n in range(1,375):     for i in GetList(n):#遍历电影访问地址          title,content,link = GetContent(i)#获取电影的标题、内容、和下载地址          print ‘正在保存第%d页的  %s ‘  %(n,title)#提示正在插入数据库          cur.execute("insert into movie(id,title,content,link) VALUES (NULL,‘%s‘, ‘%s‘,‘%s‘)" % (title, content, link))#将查找到的电影名字、内容、下载地址分别存放到数据库中          conn.commit()#提交插入结果使其生效
时间: 2024-10-11 05:29:55

简单爬虫获取电影资源的相关文章

Python实战:Python爬虫学习教程,获取电影排行榜

Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习Python这门语言. 本文是在前一部分Python基础之上程序员带你十天快速入门Python,玩转电脑软件开发(四),再次进行的Python爬虫实战课程. 正则表达式实例简单详解 正则表达式干什么用? 就是在字符串中提取我们需要的内容的. 记得哦,要先引用正则表达式模块的哦. re就是正则表达式相

Python爬虫——利用爬虫从网页获取视频资源

在某某花网上搜到一个视频,为了将视频下载到本地,我们尝试利用爬虫抓取资源 第一,我们检查网页元素,之后刷新页面 从上述信息中我们找到两个后缀名为.mp4的文件信息,其中第二条的status为206,留意它 点击这条信息,从中我们获取到了这条视频真正的URL 根据视频URL信息,参照之前爬取网页图片的方法,我们成功将视频文件保存至本地 (方法与其大同小异,只需将爬取代码中的URL链接进行更换即可) [传送门:https://www.cnblogs.com/fcbyoung/p/12291235.h

Python实现简单的爬虫获取某刀网的更新数据

昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 [python] view plain copy #!/usr/bin/python # coding: utf-8 import urllib.request import re #定义一个获取网页源码的子程序 head = "www.xiaodao.la" def get(): data = urllib.request.urlopen('http://www.xiaodao.la').read(

python实现简单爬虫

现在网上的资源特别丰富,尤其是如果在看到某些网站上的好看的图片就会想要保存下来,但是很麻烦需要的一个一个点击下载,可是如果我们用程序来处理的话,问题将会变得非常简单,只需要运行程序就可以拿到整个网页上的所有图片. 下面我们可以看一下怎样用python实现一个简单的获取网页图片的的爬虫小程序. 一.第一步,怎样获取到整个page? getPage.py import urllib def getPage(url): page = urllib.urlopen(url) content = page

零基础简单爬虫制作(以wjyt-china企业黄页爬虫为例)(上)

零.前言 本教程面向毫无编程基础的人群,讲述制作出爬虫所需要的最基本知识.目标是让你就算阅读代码如天书,凭借基本知识,复制代码以及使用搜索引擎也可以制作出可用的爬虫. 同时,本教程也是对笔者本人凭借基本知识,复制代码以及使用搜索引擎制作出可用爬虫的快速学习经历的总结归纳. 再同时,本教程也希望分享给读者三条快速学习哲学: 1.寻找趣味,保持专注.兴趣是最好的老师,发掘兴趣是最强的能力. 2.容忍无知,聚焦实用.在缺乏系统性知识的情况下,要快速涉猎不熟悉的领域并做出成果,需要控制知识与无知的平衡,

Python简单爬虫入门二

接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结构如下 #!/usr/bin/env python # -*-coding:utf-8 -*- from bs4 import BeautifulSoup import requests headers = { 'User-Agent':'Mozilla/5.0 (Win

python实现简单爬虫(二)---- 使用urllib等python模块

之前使用scrapy实现了一个超级简单的爬虫工具,用于抓取豆瓣上面所有的编程书籍信息(由于不需要爬取整个页面的所以链接,所以不需要用到BFS or DFS,只实现顺序抓取下一页) 这次使用的是python自带的urllib 和urllib2等python模块实现,同样以豆瓣上面的爱情电影信息作为爬取对象,方法与过程其实如出一辙,同样是对每一个页面发出请求后获取响应得到的网页源码,再使用正则表达式去匹配获得所需信息,然后获取下一页的链接继续爬取. 爬取页面: 网页源码: title and lin

[Java]使用HttpClient实现一个简单爬虫,抓取煎蛋妹子图

  第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果: 从程序来讲,步骤分为三步: 1.发起一个http请求,获取返回的response内容: 2.解析内容,分离出有效图片的url: 3.根据这些图片的url,生成图片保存至本地. 开始详细说明: 准备工作:HttpClient的Jar包,访问http://hc.apache.org/   自行下

Python 开发简单爬虫 - 基础框架

1. 目标:开发轻量级爬虫(不包括需登陆的 和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器(urllib2) 2.5 网页解析器(BeautifulSoup) 2.6 完整实例:爬取百度百科Python词条相关的1000个页面数据 3. 爬虫简介:一段自动抓取互联网信息的程序 爬虫价值:互联网数据,为我所用. 4. 简单爬虫架构: 运行流程: 5. URL管理器:管理待抓取URL集合