爬小说(第一次编写爬虫)

 1 import requests
 2 import re
 3 html = ‘http://www.jingcaiyuedu.com/book/317834.html‘
 4 response = requests.get(html)
 5 ‘‘‘while(str(response)!="<Response [200]>"):
 6     response = requests.get(html)
 7     print(response)
 8 ‘‘‘
 9 response.encoding = ‘utf-8‘
10 html = response.text
11 title =re.findall(r‘<meta property="og:novel:book_name" content="(.*?)"/>‘,html)[0]
12 dl = re.findall(r‘<dl id="list">.*?</dl>‘,html,re.S)[0]
13 chapter_info_list = re.findall(r‘href="(.*?)">(.*?)<‘,dl)
14 fb = open ("%s.txt"%title,"w",encoding = "utf-8")
15 for chapter_info in chapter_info_list:
16     chapter_url,chapter_title = chapter_info
17
18     chapter_url =‘http://www.jingcaiyuedu.com%s‘ % chapter_url
19     chapter_response = requests.get(chapter_url)
20     chapter_response.encoding = ‘utf-8‘
21     chapter_html = chapter_response.text
22     chapter_content = re.findall(r‘<script>a1\(\);</script>(.*?)<script>a2\(\);</script>‘,chapter_html,re.S)[0]
23     chapter_content = chapter_content.replace(‘<br /><br />&nbsp;&nbsp;&nbsp;&nbsp;‘,‘‘)
24     chapter_content = chapter_content.replace(‘&nbsp;‘,‘‘)
25     chapter_content = chapter_content.replace(‘        ‘,‘‘)
26     fb.write(chapter_title)
27     fb.write(chapter_content)
28     fb.write(‘\n‘)
29     print(chapter_url)
30
31 #print(chapter_info_list) 

第一次使用爬虫,python的功能由衷的强大,不过遭遇的运程主机的强行关闭,基本只能下载前几章就会遭遇强行关闭,下一价段争取解决

原文地址:https://www.cnblogs.com/kangdong/p/8480347.html

时间: 2024-08-11 22:01:09

爬小说(第一次编写爬虫)的相关文章

震惊!编写“爬虫”,怎么“面向监狱编程”了?

2019年9月以来,不少因为非法使用“爬虫”技术,而使公司面临诉讼,程序猿被警察带走的新闻震惊了IT圈的小伙伴们! 我只是个写爬虫的,跟我有什么关系? 许多程序员都有这样的想法,技术是无罪的,我只是个打工的程序员,公司干违法的业务,跟我没关系...只能说,程序猿们真是图样图森破了. 看到那么多爬虫导致公司触犯法律的新闻,有人开玩笑说,编写爬虫程序,就是“面向监狱编程”. 看个案例: 抓取用户社交数据,尤其是用户隐私相关. (图片文字来自新浪网) 其实,“爬虫”只是一种技术,没有那么可怕如果使用技

编写爬虫程序的神器 - Groovy + Jsoup + Sublime(转)

写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET FCL只提供了"底层"的HttpWebRequest和"中层"的WebClient,故对HTTP操作还是需要编写很多代码的.加上编写C#需要使用Visual Studio这个很"重"的工具,开发效率长期以来处于一种低下的状态. 最近项目里面接触到了一种神奇的语言Groovy -- 一种全面兼容Java语言且提供了大量额外语法功能的动态语言.

编写爬虫程序的神器 - Groovy + Jsoup + Sublime

写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET BCL只提供了"底层"的HttpWebRequest和"中层"的WebClient,故对HTTP操作还是需要编写很多代码的.加上编写C#需要使用Visual Studio这个很"重"的工具,开发效率长期以来处于一种低下的状态.   最近项目里面接触到了一种神奇的语言Groovy -- 一种全面兼容Java语言且提供了大量额外语法功能的动态语

struts第一次编写怎么都无法跳转页面

这是我第一次编写struts框架,因为对struts应用不熟练,对struts里面的config配置文件也是有点生疏,导致前天编的一个struts框架里面少了两个属性attribute与name,因此造成struts框架不完整,让struts失去了他的作用,没有了页面的挑转功能,因为少了这两个属性,config里面的action就找不到名字叫loginActionForm的from也就是name.而且还少了arrtibute,这是最重要的,因为他的值要和name属性的值的一样,path接到请求根

【爬虫笔记】第一次写爬虫,爬取新浪新闻网标题

昨晚在网易云课堂上看到了这个爬虫教程,是个基础入门教程,看了几节课,按照示例也去爬了一下新闻标题 课程一些截图:

java爬虫,网页简易爬小说程序

package PaChong; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.nodes.Node; import org.jsoup.select.Elements; import java.io.BufferedOutputStream; import java.io.FileNotFoundException; import

零基础写python爬虫之使用Scrapy框架编写爬虫

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便.使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目 明确目标(Item

第一次了解爬虫

基于想自己下载网络小说的念头,认识到了python. 使用过后真是觉得是一门适合网络的语言,加上数不清的第三方库可以使用.适合快速开发.当然python也在数据分析,自然语义方面也有很多优势.这里主要介绍在网络方面的应用. 说到网络,和我们最接近的就是网页了.网页主要技术是http,当然还有javascript,XML,JSON,TCP连接等一大堆前端,后端的东东,关于http的知识这里不做多的描述,推荐看下http权威指南. 网页都是用html语言写的,关于HTML语言W3CSCHOOL上面有

使用scrapy框架---爬小说,入库

本人步骤: 1>setting.py: BOT_NAME = 'newding' SPIDER_MODULES = ['newding.spiders']NEWSPIDER_MODULE = 'newding.spiders' ROBOTSTXT_OBEY = True ITEM_PIPELINES = { 'newding.pipelines.NewdingPipeline': 300,} 以上配置:创建项目会自动出现这些 以下是想要入数据库的(阶段): MYSQL_USER = 'root'