爬取某电影网站最新电影

 1 # -*- coding: utf-8 -*-
 2 """
 3 Created on Wed Oct 12 16:48:33 2016
 4
 5 @author: fuzzier
 6 """
 7
 8 import requests
 9 from bs4 import BeautifulSoup
10 import re
11 import os
12 import codecs
13
14 URL = ‘http://www.xxxxx.net‘
15
16 def download_page(url):
17     headers = {‘User_Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1581.2 Safari/537.36‘}
18     html = requests.get(url,headers=headers).content
19     return html
20
21 def parser_html(data):
22     soup = BeautifulSoup(data,‘html.parser‘)
23     films = []
24     trs = soup.find(‘div‘,class_=‘bd3rl‘).find(‘div‘,class_=‘co_content8‘).find_all(‘tr‘)
25     for i in trs:
26         tr = i.find(‘a‘,href=re.compile(r‘/\w+?/\w+?/\w+?/\d+?/\d+?.html‘)).string
27         if tr:
28             films.append(tr)
29         else:
30             films.append(‘None‘)
31     return films
32
33 if __name__ == ‘__main__‘:
34     html = download_page(URL)
35     film_list = parser_html(html)
36     with codecs.open(os.getcwd()+‘\\dytt8_hot.txt‘,‘w‘,encoding=‘utf8‘) as f:
37         for i in film_list:
38             f.write(i+‘\r\n‘)

时间： 2025-01-01 11:34:02

爬取某电影网站最新电影的相关文章

scrapy爬取西刺网站ip

# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class XicispiderSpider(scrapy.Spider): name = "xicispider" allowed_domains = ["www.xicidaili.com/nn"] start_urls = ['http://www.xicidaili.com/nn/']

使用node爬虫，爬取指定排名网站的JS引用库

前期准备本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库. github地址所用到的node主要模块 express 不用多说 request http模块 cheerio 运行在服务器端的jQuery node-inspector node调试模块 node-dev 修改文件后自动重启app 关于调试Node 在任意一个文件夹,执行node-inspector,通过打开特定页面,在页面上进行调试,然后运行app,使用node-dev app

网站爬取-案例一：猫眼电影TOP100

今天有小朋友说想看一下猫眼TOP100的爬取数据,要TOP100的名单,让我给发过去,其实很简单,先来看下目标网站: 建议大家都用谷歌浏览器: 这是我们要抓取的内容,100个数据,很少我们看一下页面结构 100部电影分十个页码,也就是一页10个电影,抓取方式为10页循环抓取先看下代码: 引入模块: 这次我用REQUEST模块作为抓取工具,以JSON的形式做成文件存储方式第一步:请求网页并且读取: 这个网站并没有设立反爬虫手段第二步:解析网页函数: 我这里用的正则表达式第三步:定义存

【PY】没有电影看？来教你用Python爬取电影天堂最新电影！

项目开始第一步仍然是创建scrapy项目与spider文件切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019 内容分析打开目标网站(分类是2019年上映的电影),分析我们需要的数据进入页面是列表的形式就像豆瓣电影一样,然后我们点进去具体页面看看这个页面就是我们需要拿到的内容页面,我们来看我们需要哪些数据(

爬取电影天堂最新电影的名称和下载链接

此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_useragent import UserAgent from lxml import etree import re import time import

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. import requests import re from fake_useragent import UserAgent import random import time import pymysql from hashlib import md5 from lxml import etree class DianyingtiantangSpider(object): def __init__(se

1-2 爬取猫眼票房网上的电影票房信息

1 piaofang.py 2 #-*- coding:utf-8 -*- 3 ''' 4 该脚本可以抓取猫眼票房网站上的电影票房数据 5 使用的数据为豆瓣上爬取的电影,见文件:doubanMovies_IMDBScore.csv 6 ''' 7 import requests 8 import lxml.html 9 import time 10 from pandas import DataFrame 11 import pandas as pd 12 13 headers={'User-A

python爬虫抓取电影天堂最新电影

该小脚本实现对电影天堂网站的最新电影查找. from bs4 import BeautifulSoup import urllib import re url= 'http://www.ygdy8.net/html/gndy/dyzz/index.html' moive_url_list = [] moive_name_list = [] request = urllib.urlopen(url) response = request.read() response = unicode(r

Python爬虫爬取美剧网站

一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao的我又怎甘心没剧追呢,所以网上随便查了一下就找到一个能用迅雷下载的美剧下载网站[天天美剧],各种资源随便下载,最近迷上的BBC的高清纪录片,大自然美得不要不要的. 虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载.时间长了就觉得过程好繁琐,而且有时候网