爬取小说

爬取小说：

from bs4 import BeautifulSoup
import requests
class spiderstory(object):

    def __init__(self):
        self.url = ‘http://www.365haoshu.com/Book/Chapter/‘
        self.names = []#存放章节名称
        self.hrefs = []#存放章节链接

    def get_urlandname(self):
        ‘‘‘获取章节名称和和章节URL‘‘‘
        response = requests.get(url=self.url + ‘List.aspx?NovelId=6686 ‘)
        req_parser = BeautifulSoup(response.text,"html.parser")
        div = req_parser.find_all(‘div‘,class_=‘user-catalog-ul-li‘)
        a_bf = BeautifulSoup(str(div))
        a = a_bf.find_all(‘a‘)
        for i in a:
            self.names.append(i.find(‘span‘,class_=‘fl‘).string)
            self.hrefs.append(self.url + i[‘href‘])

    def get_text(self,url):
        ‘‘‘获取对应章节内容‘‘‘
        respons2 =requests.get(url=url)
        c = BeautifulSoup(str(respons2.text),‘html.parser‘)
        b = c.find_all(‘p‘, class_=‘p-content‘)
        text = []
        for temp in  b:
            text.append(temp.string)
        return text

    def writer(self,name,path,text1):
        ‘‘‘ 写入TXT文档‘‘‘
        with open(path,‘a‘,encoding=‘utf-8‘) as f:
            f.write(name + ‘\n‘)
            f.writelines(text1)
            f.write(‘\n\n‘)

if __name__ == "__main__": # 运行入口
    a= spiderstory()
    a.get_urlandname()
    for i in range(len(a.names)):
        name = a.names[i]
        text = str(a.get_text(a.hrefs[i]))
        a.writer(name,‘F:\小说.txt‘,text)
    print(a)

　　结果：

原文地址：https://www.cnblogs.com/CJR-QYF/p/12041058.html

时间： 2024-10-06 21:24:38

爬取小说的相关文章

Python实战项目网络爬虫之爬取小说吧小说正文

本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容链接:http://tieba.baidu.com/p/4792877734 首先,自己定义一个类,方便使用.其实类就像一个"水果篮",这个"水果篮"里有很多的"水果",也就是我们类里面定义的变量啊,函数啊等等,各种各样的.每一种"水果&q

Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说,并保存到数据库第一步:先获取小说内容 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2,re domain = 'http://www.quanshu.net' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)

转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: 1 from bs4 import BeautifulSoup 2 import requests 3 4 if __name__ == '__main__': 5 html = requests.get('http://www.136book.com/huaqiangu/') 6 soup = BeautifulSoup(html.content, 'lxml'

scrapy初探之实现爬取小说

一.前言上文说明了scrapy框架的基础知识,本篇实现了爬取第九中文网的免费小说. 二.scrapy实例创建 1.创建项目 C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book9 2.定义要爬取的字段(item.py) import scrapy class Book9Item(scrapy.Item): # define the fields for your item here like: # na

Golang 简单爬虫实现，爬取小说

为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式. 所以,我没有使用爬虫框架,虽然其很高效. 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Golang写爬虫的你能有一些帮助. 爬虫主要需要解决两个问题: 获取网页解析网页如果这两个都无法解决的话就没法再讨论其他了. 开发一个爬取小说网站的爬虫会是一个不错的实践. 这是两个实例: Golang 简单爬虫实现 golang 用/x/net/html写的小爬虫,爬小说这是需要的两个项目: go

多线程爬取小说时如何保证章节的顺序

前言爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉. 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这种情况. 不仅仅是小说,一些其他的数据在多线程爬取时也有类似情况,比如: 漫画:漫画其实是由大量图片组成,一般一本漫画会保存为一个pdf文件,在此过程要保证图片的顺序. 视频:现在网络上的视频大部分是由多个ts文件拼合,最后保存为一个mp4文件,要保证ts文件的顺序. 它们都有一个共同的特点,那就是

Python 爬取小说——《唐朝小闲人》

# 爬取小说:唐朝小闲人 # 导入需要用到的库 import requestsimport osimport reimport timeimport random # 查看源网页 beginurl = 'https://www.sbiquge.com/2_2523/' # 目录网页 ## 爬取各章网页 url_response = requests.get(beginurl).text #目录网页的源代码url_regex = '<a href ="/2_2

爬取小说网站整站小说内容 -《狗嗨默示录》-

# !/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import re import MySQLdb import socket domain = 'http://www.quanshuwang.com' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

Python3网络爬虫(七)：使用Beautiful Soup爬取小说

转载请注明作者和出处:http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 一.Beautiful Soup简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简