连续爬20多本小说(第二代)

用css选择器的时候有点生疏

 1 import requests
 2 from bs4 import BeautifulSoup
 3 def get_url_list(url):
 4     content = requests.get(url).content
 5     soup = BeautifulSoup(content,‘lxml‘)
 6     list = []
 7     for i in soup.select(‘#list dl dd a‘):
 8                          temp = url+i.get(‘href‘)
 9                          list.append(temp)
10     return list
11
12 def get_date(url,title1):
13     content = requests.get(url).content
14     soup = BeautifulSoup(content,‘lxml‘)
15     soup1 = str(soup.select(‘#content‘))
16     text = soup1.replace(‘<br/>‘,‘\n‘).replace(‘</div>‘,‘\n‘).replace(‘<div id="content">‘,‘‘)
17     title = soup.select(‘.content_read .box_con .bookname h1‘)[0].get_text()
18     f = open(r‘F:\\‘+title1+‘.txt‘,‘a+‘,encoding = ‘utf-8‘)
19     f.write(title +"\n\n"+text)
20     print(title)
21     f.close()
22
23 if __name__=="__main__":
24     url = requests.get(‘http://www.biquge.info/list/1_1.html‘)
25     soup =BeautifulSoup(url.content,‘lxml‘)
26     #print(soup)
27     list =[]
28     for i in soup.select(‘#newscontent .l ul li .s2 a‘):
29         url1 = i.get(‘href‘)
30         title = i.get_text()
31         url_list = get_url_list(url1)
32         print(url_list[0])
33         for i in url_list:
34             get_date(i,title)

原文地址:https://www.cnblogs.com/kangdong/p/8629774.html

时间: 2024-11-02 07:08:24

连续爬20多本小说(第二代)的相关文章

GPRS GPRS(General Packet Radio Service)是通用分组无线服务技术的简称,它是GSM移动电话用户可用的一种移动数据业务,属于第二代移动通信中的数据传输技术

GPRS 锁定 本词条由“科普中国”百科科学词条编写与应用工作项目 审核 . GPRS(General Packet Radio Service)是通用分组无线服务技术的简称,它是GSM移动电话用户可用的一种移动数据业务,属于第二代移动通信中的数据传输技术.GPRS可说是GSM的延续.GPRS和以往连续在频道传输的方式不同,是以封包(Packet)式来传输,因此使用者所负担的费用是以其传输资料单位计算,并非使用其整个频道,理论上较为便宜.GPRS的传输速率可提升至56甚至114Kbps.[1]

不同机具的通用的第二代居民身份证读写

原文:不同机具的通用的第二代居民身份证读写 公安部已经大规模在全国范围内推广第二代居民身份证的换发工作,目前,许多地区二代证换发工作已经进行了很久.但是,相对应于二代证的推广,社会上许许多多的应用系统都还没有对二代证读卡开发相应的接口,为此,我写了一个通用的二代证机具读卡类,希望能对各位在各自的系统中开发这样的接口提供帮助.    本类仅仅提供读卡的用法,写卡的方式我并没有写在里面,但是,相应的写调用我已经声明在里面,希望各位大侠能独自研究应用.    该类接口具有如下特点:    1.通用于目

TensorFlow【机器学习】:如何正确的掌握Google深度学习框架TensorFlow(第二代分布式机器学习系统)?

本文标签:   机器学习 TensorFlow Google深度学习框架 分布式机器学习 唐源 VGG REST   服务器 自 2015 年底开源到如今更快.更灵活.更方便的 1.0 版本正式发布,由 Google 推出的第二代分布式机器学习系统 TensorFlow一直在为我们带来惊喜,一方面是技术层面持续的迭代演进,从分布式版本.服务框架 TensorFlow Serving.上层封装 TF.Learn 到 Windows 支持.JIT 编译器 XLA.动态计算图框架 Fold 等,以及

软件测试不再黑盒— threadingtest带来第二代白盒覆盖率技术

软件测试不再黑盒- threadingtest带来第二代白盒覆盖率技术 穿线测试对于测试界的一个重大创新在于,在白盒测试理论出现数十年以后,上海零一拼装信息技术有限公司结合在测试理论方面十余年的潜心研究,率先提出了第二代覆盖率技术,这绝对不是一个口号,而是ZOA真正对于白盒测试的理解以及对于标准第三方测试服务的深度理解经过数年的基础研究以及2年有余的研发而推出的达到商用标准的技术.现在先让我们温习下经典的测试理论: 1.测试方法论 黑盒功能测试法 黑盒功能测试法, 是把要测试的软件看成一个 "黑

谷歌开源第二代机器学习系统 TensorFlow

深度学习对计算机科学而言,是有相当深远的影响的.它让尖端科技研究.开发数千万人日常使用的产品成为可能.Research宣布推出第二代机器学习系统TensorFlow,针对先前的DistBelief的短板有了各方面的加强,更重要的是,它是开源的,任何人都可以用. 谷歌内部深度学习结构DistBelief开发于2011年,它让谷歌能够针对数据中心的数千核心,构建更为大型的神经网络和规模训练,典型的应用像是提升谷歌应用中的语音识别能力,以及为谷歌搜索加入图片搜索功能. 不过DistBelief存在一些

【深度解析】Google第二代深度学习引擎TensorFlow开源

作者:王嘉俊 王婉婷 TensorFlow 是 Google 第二代深度学习系统,今天宣布完全开源.TensorFlow 是一种编写机器学习算法的界面,也可以编译执行机器学习算法的代码.使用 TensorFlow 编写的运算可以几乎不用更改,就能被运行在多种异质系统上,从移动设备(例如手机和平板)到拥有几百台的机器和几千个 GPU 之类运算设备的大规模分布式系统. TensorFlow 降低了深度学习的使用门槛,让从业人员能够更简单和方便地开发新产品.作为Google 发布的“平台级产品”,很多

第二代支付系统及电票线上清算相关知识

二代支付系统 国家处理中心(NPC):NPC是人民银行连接支付系统所有城市节点和特许参与者的中枢节点,负责接收.转发各CCPC和接收.处理特许参与者的支付指令,以及资金清算的一组硬件和软件系统的总称.参加支付系统的直接参与者必须在人民银行国家处理中心开设清算账户. 城市处理中心(CCPC):CCPC是人民银行支付系统的城市节点,连接NPC和各直接参与者,负责在NPC和直接参与者之间接收和转发支付指令的一组硬件和软件系统的总称. 人民银行二代支付系统  CNAPS(China National A

Sharepoint 2013 设置连续爬网规则(crawl)

对现有内容源启用连续爬网 确认执行此过程的用户帐户是 搜索服务 应用程序的管理员. 在 管理中心 的"应用程序管理"部分,单击"管理服务应用程序". 单击 搜索服务 应用程序. 在搜索管理"页上的"快速启动"中,单击"正在爬网"下的"内容源". 在管理内容源"页上,单击要为其启用连续爬网的 SharePoint 内容源. 在"爬网计划"部分,选择"启用连续爬

hyperv 创建第二代虚拟机

环境:宿主机windows 8.1,虚拟机:windows 8.1 硬件:笔记本电脑,无线网络,没有有线网络网络配置先不设置 1.安装hyperv,控制面版-->程序和功能-->启用或关闭windows功能-->Hyper-v下的内容全选,安装就可以了. 2.创建虚拟机,如下图 第二代只支持windows 8 或windows server 2012及以后新版本的系统 网络这里先不做配置 完成之后,对虚拟机进行设置 确定完成后,开始启动虚拟机,连接-->启动 这里出错,图没有截到,