python爬取电影记录并生成excel表格

#coding=utf-8
import urllib2
import re
import xlwt
import smtplib
import random
import time
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.application import MIMEApplication

# 1.先获取整个页面信息

# Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。
# 首先,我们定义了一个getHtml()函数:
# urllib.urlopen()方法用于打开一个URL地址。
# read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。
#
# #添加头部header
# Agent_list = [ ]
# user_agent = random.choice(Agent_list)
# page.add_header(‘User-Agent‘,user_agent)
#
#
# #定义opener,设置代理IP
# ip_list = []
# httpproxy_handler = urllib2.ProxyHandler({‘http‘:random.choice(ip_list)})
# opener = urllib2.build_opener(httpproxy_handler)
# urllib2.install_opener(opener)

def getHtml(url):
Agent_list = [‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36‘,
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"
]
ip_list = [‘223.198.16.58:9999‘,‘110.244.12.96:9999‘,‘61.145.8.103:9999‘,‘223.198.19.214:9999‘,‘112.85.125.111:9999‘]
user_agent = random.choice(Agent_list)
httpproxy_handler = urllib2.ProxyHandler({‘http‘:random.choice(ip_list)})
opener = urllib2.build_opener(httpproxy_handler)
urllib2.install_opener(opener)
page = urllib2.Request(url)
page.add_header(‘User-Agent‘,user_agent)
response = urllib2.urlopen(page)
html = response.read()
return html

# 2.筛选页面中想要的数据

# 我们又创建了geturl()函数,用于在获取的整个页面中筛选需要的视频连接。
# re模块主要包含了正则表达式:
# r"<a href=‘(/html/gndy/+.+html)‘",表示查找类似/html/gndy/jddy/20190607/58704.html地址的超链接。
# 正则表达式输出的是括号()里面的内容。
#
# 正则表达式示例:r‘(.*) are (.*?) .*‘
# 首先,这是一个字符串,前面的一个 r 表示字符串为非转义的原始字符串,让编译器忽略反斜杠,也就是忽略转义字符。
# 但是这个字符串里没有反斜杠,所以这个 r 可有可无。
# . :匹配一个除了换行符任意一个字符
# ^ :只有后面跟的字符串在开头,才能匹配上
# * :它控制它前面那个字符,他前面那个字符出现0到多个都可以匹配上 
# + :匹配前面那个字符1到多次
# ?:匹配前面那个字符0到1个,多余的只匹配一个
# (.*) 第一个匹配分组,.* 代表匹配除换行符之外的所有字符。
# (.*?) 第二个匹配分组,.*? 后面多个问号,代表非贪婪模式,也就是说只匹配符合条件的最少字符
# 后面的一个 .* 没有括号包围,所以不是分组,匹配效果和第一个一样,但是不计入匹配结果中。
#
# re.search("com","COM",re.I).group()
# re.I 使匹配对大小写不敏感
# re.L 做本地化识别(locale-aware)匹配
# re.M 多行匹配,影响^和$
# re.S 使.匹配包括换行在内的所有字符
#
# <a href="">..</a>表示超链接
# re.compile() 可以把正则表达式编译成一个正则表达式对象.
# re.findall() 方法读取html 中包含 urlre(正则表达式)的数据。
# 运行脚本将得到整个页面中包含图片的URL地址。
#
# reg = r"<a href=‘(/html/gndy/.*)</a><br/>"
# 匹配类似<a href=‘/html/gndy/jddy/20160320/50523.html‘>IMDB评分8分左右影片400余部</a><br/> 并输出括号里面的内容
# 得到 /html/gndy/jddy/20160320/50523.html‘>IMDB评分8分左右影片400余部
# 可以用 reg = r"<a href=‘(/html/gndy/.*?)</a><br/>"
# 可以用 reg = r"<a href=‘(/html/gndy/.+)</a><br/>"
# 可以用 reg = r"<a href=‘(/html/gndy/.+?)</a><br/>"
#
# re.split(r"‘>+",resource_url) 将得到的结果‘/html/gndy/jddy/20160320/50523.html‘>IMDB评分8分左右影片400余部’ 按照‘>切割成两部分。
# down_addr = ‘‘ + down_page[j] down_page无法显示汉字,所以做了下转化
#
# for i in range (1,20) 查询需要的条记录,从1开始的原因是因为第0个记录不是需要的数据。

def geturl(html):
reg = r"<a href=‘(/html/gndy/.*)</a><br/>"
urlre = re.compile(reg)
urllist = re.findall(urlre,html)
wbk = xlwt.Workbook(encoding=‘gbk‘)
worksheet = wbk.add_sheet(‘My worksheet‘)
list1=(‘Name‘,‘Page‘,‘Url‘)
for i in range(1,20):
resource_url = "https://dytt8.net" + urllist[i]
result = re.split(r"‘>+",resource_url)
Agent_list = [‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36‘,
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
ip_list = [‘223.198.16.58:9999‘,‘110.244.12.96:9999‘,‘61.145.8.103:9999‘,‘223.198.19.214:9999‘,‘112.85.125.111:9999‘]
user_agent = random.choice(Agent_list)
httpproxy_handler = urllib2.ProxyHandler({‘http‘:random.choice(ip_list)})
opener = urllib2.build_opener(httpproxy_handler)
urllib2.install_opener(opener)
user_agent = random.choice(Agent_list)
down_page = urllib2.Request(result[0])
down_page.add_header(‘User-Agent‘,user_agent)
print down_page.get_header(‘User-agent‘)
response_page = urllib2.urlopen(down_page)
down_html = response_page.read()
addr_code = r‘<a href="(ftp://.*)">‘
addr_re = re.compile(addr_code)
down_url = re.findall(addr_re,down_html)
down_addr = ‘‘ + down_url[0]
if i == 1:
for list in range(0,len(list1)):
worksheet.write(i-1,list,list1[list])
else:
worksheet.write(i-1,0,result[1])
worksheet.write(i-1,1,result[0])
worksheet.write(i-1,2,down_addr)
time.sleep(5)
wbk.save(‘renew.xls‘)

#3. 发送邮件

def send_mail():
user = ‘xxxx.com‘
pwd = ‘xxxxs‘
to = ‘xxxx‘
msg = MIMEMultipart()
msg["Subject"] = ‘电影记录‘
msg ["From"] = user
msg ["To"] = to
part1 = MIMEText("你好,\n\n 电影记录见附件。")
msg.attach(part1)
part2 = MIMEApplication (open(r‘E:\2xx3\python脚本\html\renew.xls‘,‘rb‘).read())
part2.add_header(‘Content-Disposition‘,‘attachment‘,filename=‘renew.xls‘)
msg.attach(part2)
s = smtplib.SMTP("smtp.139.com",timeout=30)
s.login(user,pwd)
s.sendmail(user,to,msg.as_string())
s.close()
html = getHtml("https://www.dytt8.net/index0.html")
geturl(html)
send_mail()

原文地址:https://blog.51cto.com/13689359/2462166

时间: 2024-08-01 11:56:31

python爬取电影记录并生成excel表格的相关文章

Python爬取电影天堂指定电视剧或者电影

1.分析搜索请求 一位高人曾经说过,想爬取数据,要先分析网站 今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽的音乐,贪玩蓝月? 通过python,我们可以避免广告,直接拿到我们要的东西 我用的是火狐浏览器,按F12打开开发者工具,选择网络 按照正常的操作顺序,其实python就是在模拟人进行一些网页操作,我们只不过通过python解放自己的双手 在搜索框输入“傲骨贤妻”,当然你输入其他的电视剧名称也可以,

【PY】没有电影看?来教你用Python爬取电影天堂最新电影!

项目开始 第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019 内容分析 打开目标网站(分类是2019年上映的电影),分析我们需要的数据 进入页面是列表的形式就像豆瓣电影一样,然后我们点进去具体页面看看 这个页面就是我们需要拿到的内容页面,我们来看我们需要哪些数据(

将爬取的数据保存到Excel表格

第一步.导入模块 import xlwt # 导入写入excel需要的包第二步.定义函数,将爬取好的数据保存到excel文件中,下面以保存python的关键词为例,介绍详细流程. def write_to_excel(filename, lst): # 为防止写入失败,捕获异常 try: # 1 创建一个workbook,相当于创建excel文件 work_book = xlwt.Workbook(encoding='utf-8') # 2 创建一个sheet表单 sheet = work_bo

Python抓取电影天堂, 零基础都可以学? 源码&amp;视频教程, 大赞!

我此次利用Python爬取电影天堂包含的源码非常清晰,所以说零基础的Python新手也能够轻松学会,真的一点都不过分. 先看我们的部分代码与爬取到的结果: 爬取到的电影资源:(可以获取视频教程) 步骤: 1. 首先导入需要的模块 2. 获取网页信息.解析结果 3.存储结果 3.编写主函数 4.运行源代码 工具: VS Code.Python3 Python最新爬取电影天堂源代码,跑代码即可爬取资源 源代码背后都有相关解释,各步骤我不进行相关讲解的原因. 原文地址:https://www.cnbl

利用Python爬取豆瓣电影

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中 我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE 有3个字段是非常重要的: 1.sort=T 2.range=0,10 3.tag

使用htmlparse爬虫技术爬取电影网页的全部下载链接

昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚然,我们的重点在于如何灵活运用我们已学的技术,这就需要我们不断的练习,不停的思索和深入发掘,在了解了精髓和意义之后运用到实践中才是技术的最高境界. 今天呢,本着昨天的兴趣,想来爬一爬电影资源,中途为了找一个好用趁手的工具,也是费了不少心思,早上半天基本上都在学习和找资料的过程中度过,下午开始才进入状

表哥用Python爬取数千条淘宝商品数据后,发现淘宝这些潜规则!

本文记录了笔者用 Python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论. 项目内容 本案例选择商品类目:沙发. 数量:共 100 页 4400 个商品. 筛选条件:天猫.销量从高到低.价格 500 元以上. 项目目的 对商品标题进行文本分析,词云可视化 不同关键词 word 对应的 sales 的统计分析 商品的价格分布情况分析 商品的销量分布情况分析 不同价格区间的商品的平均销量分布 商品价格对销量的影响分析 商品价格对销售额的影响分析 不同省份或城市的商品数量分布

Python爬取视频指南

摘自:https://www.jianshu.com/p/9ca86becd86d 前言 前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验 正文 https://www.cniao5.com/ 菜鸟窝上有很多教程视频,但是这些视频好像没有直接的下载地址,而且有些教程视频还是有期限的,那么问题就产生了我看的速度比较慢而且视频又很多,没等我看完视频就到期了怎么办?这时候写一个爬虫将这些教程视频下载下来就很好地解决了这个问题 当然,对于某些视频网站的VIP电影.视频

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs