BeautifulSoup爬取电影天堂全站电影资源

#爬取电影天堂全站电影资源链接#功能:#1、获取电影天堂资源下载链接并输出#2、所有链接保存为一个csv文件

import timeimport requestsfrom bs4 import BeautifulSoupimport csv

def spider(url):    global page, No, fobj    try:        page += 1        print("第{}页".format(page))        # time.sleep(1)        #获取网页链接并读取        html = requests.get(url)        html.encoding="gbk"        html=html.text        #beautfulSoup装载文档        root=BeautifulSoup(html,"lxml")        #查找所需元素,获取tables列表        tables=root.find("div",attrs={"class":"co_content8"}).find("ul").find_all("table")        for table in tables:            name = table.find("a").text            url = "http://www.dytt8.net"+table.find("a")["href"]            # 文件写入操作            writer = csv.writer(fobj)            writer.writerow([name, url])            No += 1            print("No:", No, name, url)        #爬取下一页        # time.sleep(1)        urls=root.find("div",attrs={"class":"co_content8"}).find("div",attrs={"class":"x"}).find_all("a")        #寻找下一页的链接        for u in urls:            # print(url.text)            # try:            if u.text == "下一页":                    url="https://www.dytt8.net/html/gndy/dyzz/"+u["href"]                    print(url)                    #如有下一页                    spiderA(url)

    except:#没有下一页        print("finished")        # spiderA(url)

begin_time = time.time()url="https://www.dytt8.net/html/gndy/dyzz/index.html"page=0No=0fobj=open("movies.csv", "wt", encoding="gbk", newline=‘‘)spider(url)fobj.close()end_time = time.time()time=end_time-begin_timem,s=divmod(round(time),60)print("用时:{}min{}s".format(m,s))

原文地址:https://www.cnblogs.com/billie52707/p/12113520.html

时间: 2024-10-29 19:07:07

BeautifulSoup爬取电影天堂全站电影资源的相关文章

爬取拉钩全站的职位信息

爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结 项目所需要的知识比较全面,很适合练手, 一 程序目的 爬取拉钩全站的职位信息存入mysql和mongodb中 二 所用到的方法 一 利用selenium登录拉钩取得cookies 二 利用redis保存selenium登录拉钩取得cookies信息,维护一个cookie池 三 爬取西刺等免费IP网站,并用redis维护一个IP池 四 利用flask把cookies和ip分别映射到网页中,用requsets得到. 五

爬取电影天堂最新电影的名称和下载链接

此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_useragent import UserAgent from lxml import etree import re import time import

【PY】没有电影看?来教你用Python爬取电影天堂最新电影!

项目开始 第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019 内容分析 打开目标网站(分类是2019年上映的电影),分析我们需要的数据 进入页面是列表的形式就像豆瓣电影一样,然后我们点进去具体页面看看 这个页面就是我们需要拿到的内容页面,我们来看我们需要哪些数据(

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. import requests import re from fake_useragent import UserAgent import random import time import pymysql from hashlib import md5 from lxml import etree class DianyingtiantangSpider(object): def __init__(se

python爬虫抓取电影天堂最新电影

该小脚本实现对电影天堂网站的最新电影查找. from bs4 import BeautifulSoup  import  urllib import  re url= 'http://www.ygdy8.net/html/gndy/dyzz/index.html' moive_url_list = [] moive_name_list = [] request = urllib.urlopen(url) response = request.read() response = unicode(r

简单爬取《小丑》电影豆瓣短评生成词云

导语  在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给观众们留下的关键词是什么. 抓取数据  首先刚开始的时候 ,是通过requests去模拟抓取数据,发现短评翻页翻到20页之后就需要登录豆瓣用户才有权限查看,所以打算通过使用selenium模拟浏览器动作自动化将页面中的数据爬取下来,然后存储到特定的txt文件,由于没打算做其他的分析,就不打算存放到

用Python爬取豆瓣Top250的电影标题

所以我们可以这么写去得到所有页面的链接我们知道标题是在 target="_blank"> 标题的位置</a> 之中 所以可以通过正则表达式找到所有符合条件的标题 将内容写入到表格保存起来 下面贴入完整代码 import requests, bs4, re, openpyxl url = 'https://www.douban.com/doulist/3936288/?start=%s' urls = [] 多少页 pages = 10 for i in range(p

爬取豆瓣的tp250电影名单

# https://movie.douban.com/top250?start=25&filter= 要爬取的网页 import re from urllib.request import urlopen def getPage(url): response=urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret=com.finditer(s) for i in ret: ret={ 'id': i.gr

使用BeautifulSoup爬取“0daydown”网站的信息(2)——字符编码问题解决

上篇中的程序实现了抓取0daydown最新的10页信息,输出是直接输出到控制台里面.再次改进代码时我准备把它们写入到一个TXT文档中.这是问题就出来了. 最初我的代码如下: #-*- coding: utf-8 -*- #------------------------------------- #version: 0.1 #note:实现了查找0daydown最新发布的10页资源. #------------------------------------- #----------------