BeautifulSoup爬取电影天堂全站电影资源

#爬取电影天堂全站电影资源链接#功能：#1、获取电影天堂资源下载链接并输出#2、所有链接保存为一个csv文件

import timeimport requestsfrom bs4 import BeautifulSoupimport csv

def spider(url):    global page, No, fobj    try:        page += 1        print("第{}页".format(page))        # time.sleep(1)        #获取网页链接并读取        html = requests.get(url)        html.encoding="gbk"        html=html.text        #beautfulSoup装载文档        root=BeautifulSoup(html,"lxml")        #查找所需元素，获取tables列表        tables=root.find("div",attrs={"class":"co_content8"}).find("ul").find_all("table")        for table in tables:            name = table.find("a").text            url = "http://www.dytt8.net"+table.find("a")["href"]            # 文件写入操作            writer = csv.writer(fobj)            writer.writerow([name, url])            No += 1            print("No:", No, name, url)        #爬取下一页        # time.sleep(1)        urls=root.find("div",attrs={"class":"co_content8"}).find("div",attrs={"class":"x"}).find_all("a")        #寻找下一页的链接        for u in urls:            # print(url.text)            # try:            if u.text == "下一页":                    url="https://www.dytt8.net/html/gndy/dyzz/"+u["href"]                    print(url)                    #如有下一页                    spiderA(url)

    except:#没有下一页        print("finished")        # spiderA(url)

begin_time = time.time()url="https://www.dytt8.net/html/gndy/dyzz/index.html"page=0No=0fobj=open("movies.csv", "wt", encoding="gbk", newline=‘‘)spider(url)fobj.close()end_time = time.time()time=end_time-begin_timem,s=divmod(round(time),60)print("用时：{}min{}s".format(m,s))

原文地址：https://www.cnblogs.com/billie52707/p/12113520.html

时间： 2025-01-05 03:10:35

BeautifulSoup爬取电影天堂全站电影资源的相关文章

爬取拉钩全站的职位信息

爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结项目所需要的知识比较全面,很适合练手, 一程序目的爬取拉钩全站的职位信息存入mysql和mongodb中二所用到的方法一利用selenium登录拉钩取得cookies 二利用redis保存selenium登录拉钩取得cookies信息,维护一个cookie池三爬取西刺等免费IP网站,并用redis维护一个IP池四利用flask把cookies和ip分别映射到网页中,用requsets得到. 五

爬取电影天堂最新电影的名称和下载链接

此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """ 爬取电影天堂2019年的电影名称和链接 """ import requests import csv from fake_useragent import UserAgent from lxml import etree import re import time import

【PY】没有电影看？来教你用Python爬取电影天堂最新电影！

项目开始第一步仍然是创建scrapy项目与spider文件切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019 内容分析打开目标网站(分类是2019年上映的电影),分析我们需要的数据进入页面是列表的形式就像豆瓣电影一样,然后我们点进去具体页面看看这个页面就是我们需要拿到的内容页面,我们来看我们需要哪些数据(

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. import requests import re from fake_useragent import UserAgent import random import time import pymysql from hashlib import md5 from lxml import etree class DianyingtiantangSpider(object): def __init__(se

python爬虫抓取电影天堂最新电影

该小脚本实现对电影天堂网站的最新电影查找. from bs4 import BeautifulSoup import urllib import re url= 'http://www.ygdy8.net/html/gndy/dyzz/index.html' moive_url_list = [] moive_name_list = [] request = urllib.urlopen(url) response = request.read() response = unicode(r

简单爬取《小丑》电影豆瓣短评生成词云

导语在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给观众们留下的关键词是什么. 抓取数据首先刚开始的时候 ,是通过requests去模拟抓取数据,发现短评翻页翻到20页之后就需要登录豆瓣用户才有权限查看,所以打算通过使用selenium模拟浏览器动作自动化将页面中的数据爬取下来,然后存储到特定的txt文件,由于没打算做其他的分析,就不打算存放到

用Python爬取豆瓣Top250的电影标题

所以我们可以这么写去得到所有页面的链接我们知道标题是在 target="_blank"> 标题的位置</a> 之中所以可以通过正则表达式找到所有符合条件的标题将内容写入到表格保存起来下面贴入完整代码 import requests, bs4, re, openpyxl url = 'https://www.douban.com/doulist/3936288/?start=%s' urls = [] 多少页 pages = 10 for i in range(p

爬取豆瓣的tp250电影名单

# https://movie.douban.com/top250?start=25&filter= 要爬取的网页 import re from urllib.request import urlopen def getPage(url): response=urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret=com.finditer(s) for i in ret: ret={ 'id': i.gr

使用BeautifulSoup爬取“0daydown”网站的信息（2）——字符编码问题解决

上篇中的程序实现了抓取0daydown最新的10页信息,输出是直接输出到控制台里面.再次改进代码时我准备把它们写入到一个TXT文档中.这是问题就出来了. 最初我的代码如下: #-*- coding: utf-8 -*- #------------------------------------- #version: 0.1 #note:实现了查找0daydown最新发布的10页资源. #------------------------------------- #----------------