Python 爬取小说——《唐朝小闲人》

# 爬取小说：唐朝小闲人

# 导入需要用到的库

import requests
import os
import re
import time
import random

# 查看源网页

beginurl = ‘https://www.sbiquge.com/2_2523/‘ # 目录网页

## 爬取各章网页

url_response = requests.get(beginurl).text #目录网页的源代码
url_regex = ‘<a href ="/2_2523/(.*?)">‘ # 提取各章网面的正则表达式
after_urls = re.compile(url_regex).findall(url_response) #提取各章的url
ever_urls = [] #所有章节url
for i in after_urls:
　　ever_urls.append(beginurl + i)
　　ever_urls

## 格式化保存函数
def baocun(response):
　　regex_title = ‘唐朝小闲人在线阅读</a> - (.*?) <span class="oninfo">‘
　　regex_body = ‘        (.*?)\r<br />\r<br />‘
　　title = re.compile(regex_title).findall(response.text)
　　body = re.compile(regex_body).findall(response.text)
　　with open (title[0],‘w+‘) as f:
　　　　f.write(title[0]+‘\n‘)
　　　　for i in body:
　　　　　　f.write(i + ‘\n‘)
　　f.close
　　print(title[0])

完成情况如下：

原文地址：https://www.cnblogs.com/xuezhongdelang/p/12263838.html

时间： 2024-11-09 20:32:44

Python 爬取小说——《唐朝小闲人》的相关文章

零基础如何学好python爬虫？之python爬取B站小视频

B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话在最下方循环中填写好循环的次数就可以了 B 站真是个神奇的网站.找不到资料了,去 B 站逛一逛,保准有你满意的东西. 前几天写了个爬虫,用 path.re.BeautifulSoup 爬取的 B 站 python 视频,如果要爬取多页的话在最下方循环中填写好循环的次数就可以了废话不多说直接上

用python爬取小说章节内容

在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件代码如下: 1 #导入相关model 2 from bs4 import BeautifulSoup 3 import requests 4 import re 5 6 #获取目标链接地址 7 url = 'http://www.biquyun.com/0_292/' 8 reponse = requests.get(url) 9 rep

python爬取小说

运行结果: 代码: 1 import requests 2 from bs4 import BeautifulSoup 3 from selenium import webdriver 4 import os 5 6 class NovelSpider: 7 def __init__(self): 8 self.start_url = 'https://www.biqukan.com/1_1680/' 9 10 def get_novel(self): 11 response = request

python入门学习之Python爬取最新笔趣阁小说

Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后迎刃而解了.这个程序非常的简单,程序的大概就是先获取网页的源代码,然后在网页的源代码中提取每个章节的url,获取之后,在通过每个url去获取文章的内容,在进行提取内容,然后就是保存到本地,一TXT的文件类型保存.大概是这样1:获取网页源代码2:获取每章的url3:获取每章的内容4:下载保存文件中 1

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)

转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: 1 from bs4 import BeautifulSoup 2 import requests 3 4 if __name__ == '__main__': 5 html = requests.get('http://www.136book.com/huaqiangu/') 6 soup = BeautifulSoup(html.content, 'lxml'

用Python爬取网页上的小说，让你从此告别书荒！

人生苦短,我用Python.有道爱看小说的小伙伴们,在看小说的期间总会遇到那么一段书荒期,在这段期间想看书却找不到,要么就是要VIP,要么就是下载不了.所以学会爬取网站上的小说是很有必要的,今天就以爬取笔趣阁小说为例,进行网页上小说的爬取.首先当我们打开笔趣阁的网页时,我们会看到很多的小说列表,如下图所示: ? 就拿爬取图上所示的小说来说,我们要进行以下的几个步骤: 爬取小说首先要构建请求表头: ? 然后我们的获取下载链接: ? 接下来我们进行文章内容的爬取: ? 最后我们将爬取来的小说写入到文

Python实战项目网络爬虫之爬取小说吧小说正文

本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容链接:http://tieba.baidu.com/p/4792877734 首先,自己定义一个类,方便使用.其实类就像一个"水果篮",这个"水果篮"里有很多的"水果",也就是我们类里面定义的变量啊,函数啊等等,各种各样的.每一种"水果&q

Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说,并保存到数据库第一步:先获取小说内容 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2,re domain = 'http://www.quanshu.net' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)

由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不是打广告的,没收广告费的) 同时,之前同事也发了一个贴吧的段子聚居地,客官稍等,马上奉上连接:段友之家?https://tieba.baidu.com/f?ie=... 然后呢,看到上面,确实好多段友在上面,于是乎,我就想爬取他们的图片和小视频,就有了这篇文章的主题: 其实吧,用Python爬取网站数据是最基

猜你喜欢

c语言的数组与字符串

在c语言中一般是没有办法直接定义定义字符串数据类型的:但是我们可以使用数组来定义我们想要的字符串.一般有以下两种方式: 1.char 字符串名称[长度] = "字符串值"; cha ...

链表中倒数第k个结点（剑指offer）

链表中倒数第k个结点参与人数:1699时间限制:1秒空间限制:32768K 通过比例:21.37% 最佳记录:0 ms|8552K(来自无声) 题目描述输入一个链表,输出该链表中倒数第k个结点 ...

百度云搜索的API研究

参数说明key:搜索关键字infoid:key infoid必选其一内容页idlimit:限制条数为空则默认10sort:排序参数可选值(size,date) 为空默认排序dasc:sort d ...

kindeditor4跨域上传图片解决

项目中正在使用kindeditor, 版本号4.1.10 非常多公司的图片会走CDN,须要单独的一台图片上传服务如:(upload.268xue.com) kindeditor上传图片的简单内部流程: ...

JAVA学习第六十四课 — 反射机制

Java反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法,对于任意一个对象,都能够调用它的任意一个方法和属性,这种动态获取的信息以及动态调用对象的方法的功能称为java语 ...

逻辑地址、线性地址和物理地址的关系

http://blog.csdn.net/prike/article/details/52722934 物理内存:数据寻址用:mmu联系: 虚拟地址:cpu传给mmu的:给程序员使用: 逻辑地址:cp ...

LNK2038, LNKC4743，LNK4098,LNK2001

1>hlibs.lib(HIocpSocketServer.obj) : error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MD_DynamicRelease ...

Thrift数据类型

一.基本数据类型: 1.bool:布尔类型值,只有true和false. 2.byte:8位带符号整数. 3.i16:16位带符号整数. 4.i32:32位带符号整数. 5.i64:64位带符号整数. ...

信号处理篇alarm ferror kill mkfifo pause pclose perror pipe popen sigaction sigaddset sigdelset sigemptyset signal sleep strerror

alarm(设置信号传送闹钟) 相关函数 signal,sleep 表头文件 #include<unistd.h> 定义函数 unsigned int alarm(unsigned int ...

butterknife 配置了点击和绑定无效

配置了butterknife 没有报错,但是控件绑定和点击均无效. 问题原因: butterknife配置不完善问题导致. 解决办法: 找到app的module的build.gradle depend ...

iPhone照片导入到Mac电脑方法

今天突然想把iPhone中的照片导入到Mac中,不知道该怎么办.如果在Windows电脑中,会在"我的电脑"中新增一个盘符,表示了手机中的文件夹,里面就是手机的照片.但是在Mac中 ...

Spring在web请求中定义编码

最近有几个小伙伴在开发的时候竟然还出现了乱码情况,检查了下,竟然没写filter-mapping,记录下通过类org.springframework.web.filter.CharacterEnco ...

Lamda 表达式（λ-calculus）学习(1)

(参考:<type and Programming Languages>) 一.语法: t ::= terms: x variable λx.t abstraction t t a ...

Libjingle库综述

国内现在很多语音聊天工具都是基于TURN方式实现的,包括YY.AK等等,这种方式对于服务器的性能要求很高,而且在用户量增大的时候,服务器压力也会越来越大,用户的语音质量也会受到很大影响.而基于P2P方 ...

apache-详细配置文件介绍+多种方式虚拟主机配置

grep -v "#" /etc/httpd/conf/httpd.conf ServerTokens OS 返回Server :Apache/2.0.41(unix) se ...

Windows变慢原因分析及解决方法

<p>Windows变慢原因分析及解决方法 <br/> <br/> <br/> <br/> 谁都希望计算机一开机就可以立即进入Window ...

The Cow Lexicon DP

Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 10659 Accepted: 5116 Description Few ...

第四十一天：mysql 调优方式

小Q:世界上最快而又最慢,最长而又最短,最平凡而又最珍贵,最易被人忽视而又最让人后悔的就是时间. ----高尔基 ======================= ...

STM32 F407VG （二）DMA

根据ST公司提供的相关信息,DMA是STM32中一个独立与Cortex-M4核的模块:主要功能是通信"桥梁"的作用,可以将所有外设寄存器和内存空间"连接"起来, ...

处理页面载入图片js（等比例压缩图片）

第一页面html <div class="admin">${answer.content}</div> <div class="admin ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.