Python 爬取笔趣看小说

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
import sys

class DownLoader(object):
    def __init__(self):
        self.server = ‘http://www.biqukan.com/‘
        self.target = ‘http://www.biqukan.com/0_790/‘
        self.header = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebK‘
                                     ‘it/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36‘}
        self.name = []
        self.urls = []
        self.num = 0

    def get_downloader_url(self):
        req = requests.get(url=self.target, headers=self.header)
        html = req.text
        div_bf = BeautifulSoup(html, ‘lxml‘)
        div = div_bf.find_all(‘div‘, class_=‘listmain‘)
        a_bf = BeautifulSoup(str(div[0]), ‘lxml‘)
        a = a_bf.find_all(‘a‘)
        self.num = len(a[16:])
        for i in a[16:]:
            self.name.append(i.string)
            self.urls.append(self.server+i.get(‘href‘))

    def get_content(self, target):
        req = requests.get(target, headers=self.header)
        html = req.text
        con_bf = BeautifulSoup(html, ‘lxml‘)
        con = con_bf.find_all(‘div‘, class_=‘showtxt‘)
        con = con[0].text.replace(‘\xa0‘*8, ‘\n\n‘)
        return con

    def writer(self, name, path, text):
        write_flag = True
        with open(path, ‘a‘, encoding=‘utf-8‘) as f:
            f.write(name+‘\n‘)
            f.writelines(text)
            f.write(‘\n\n‘)

if __name__ == ‘__main__‘:
    dl = DownLoader()
    dl.get_downloader_url()
    print(‘《元尊》开始下载：‘)
    for i in range(dl.num):
        dl.writer(dl.name[i], ‘元尊.txt‘, dl.get_content(dl.urls[i]))
        sys.stdout.write("已下载：%.3f" % float(i/dl.num)+‘\r‘)
        sys.stdout.flush()
    print(‘下载完成‘)

原文地址：https://www.cnblogs.com/LouisZJ/p/8663173.html

时间： 2024-08-30 12:11:27

Python 爬取笔趣看小说的相关文章

Python 爬取笔趣阁小说

最近在学习 Python,觉得爬虫很好玩,今天我准备爬取我看了至少三遍的小说<雪中悍刀行>,作者是烽火戏诸侯,他的小说很有才华,有着很多的粉丝,但他很多部小说都处于断更状态,因此人称大内总管. 我准备爬取小说的网站是新笔趣阁,这里一个盗版网站,是名门正派的眼中钉,不过对于我这种不想交钱看小说的人,没资格评论它,这个网站连载的小说更新的还是比较快的,内容都是和正版的内容一模一样.好了,废话不多说了,下面开始放代码: 我在抓取小说内容时先用了 requests 库来抓取,结果就抓到了一章小说的开头

用爬虫爬取笔趣阁小说

#时间 2019年3月4日19:16:06 #功能:爬取笔趣阁任何小说. from urllib import request from bs4 import BeautifulSoup #此函数用来获取每章对应的小说,并保存小说 def secondOpenURL(url,ch_name): # 请求每章详细内容 date = request.urlopen(url).read().decode('gbk') soup = BeautifulSoup(date, 'html.parser').

scrapycrawl 爬取笔趣阁小说

前言第一次发到博客上..不太会排版见谅最近在看一些爬虫教学的视频,有感而发,大学的时候看盗版小说网站觉得很能赚钱,心想自己也要搞个,正好想爬点小说能不能试试做个网站(网站搭建啥的都不会...) 站点拥有的全部小说不全,只能使用crawl爬全站不过写完之后发现用scrapy爬的也没requests多线程爬的快多少,保存也不好一本保存,由于scrapy是异步爬取,不好保存本地为txt文件,只好存mongodb 捂脸下面是主代码 # -*- coding: utf-8 -

爬取笔趣阁小说

<修罗武神>是在17K小说网上连载的网络小说,作者为善良的蜜蜂.小说讲述了一个少年从下界二等门派外门弟子成长为上界翘楚人物的故事.该书曾入选“第三届橙瓜网络文学奖”百强作品. 编程只是实现目的的工具. 所以重点是分析我们的需求. 获取小说目录页面是基本.这里有各个章节的链接,标题等等内容.这是我们需要的. 有了各个章节的链接,就需要进入其中获得各个章节的内容. 1.首先是爬取网站的内容 1 def get_content(url): 2 3 try: 4 headers = { 5 'User

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<underscorce>) 项目目录层级如下: 声明Item 声明我们可能用到的所有字段,包括管理字段等.管理字段可以让我们清楚何时(date).何地(url server)及如何(spider)执行爬去,此外,还可以自动完成诸如使item失效.规划新的抓取迭代或是删除来自有问题的爬虫的item. 管理字段 Pytho

用Python爬取网页上的小说，让你从此告别书荒！

人生苦短,我用Python.有道爱看小说的小伙伴们,在看小说的期间总会遇到那么一段书荒期,在这段期间想看书却找不到,要么就是要VIP,要么就是下载不了.所以学会爬取网站上的小说是很有必要的,今天就以爬取笔趣阁小说为例,进行网页上小说的爬取.首先当我们打开笔趣阁的网页时,我们会看到很多的小说列表,如下图所示: ? 就拿爬取图上所示的小说来说,我们要进行以下的几个步骤: 爬取小说首先要构建请求表头: ? 然后我们的获取下载链接: ? 接下来我们进行文章内容的爬取: ? 最后我们将爬取来的小说写入到文

多线程爬取笔趣阁免费小说全站爬取

import threading,os,time,requests,pymongo,refrom queue import Queuefrom lxml import etreefrom bs4 import BeautifulSoup as BPclient = pymongo.MongoClient(host='localhost',port=27017)mg = client['biquge']def get_fenlei(): """ 爬取图书全部分类 :return

python入门学习之Python爬取最新笔趣阁小说

Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后迎刃而解了.这个程序非常的简单,程序的大概就是先获取网页的源代码,然后在网页的源代码中提取每个章节的url,获取之后,在通过每个url去获取文章的内容,在进行提取内容,然后就是保存到本地,一TXT的文件类型保存.大概是这样1:获取网页源代码2:获取每章的url3:获取每章的内容4:下载保存文件中 1

python爬取小视频，看完身体一天不如一天！

Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以在这里给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,都放在了文章结尾,欢迎前来领取!python爬取小视频记录学习python简单爬虫小程序,记录代码和学习过程环境信息python 2.7.12分析与步骤要分析网站信息 http://www.budejie.com/video/ 查看网页不同页面的信息http://www.budejie.com/video/2http://www.budejie.