自动抓取163新闻的Python爬虫源码

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文。

Python爬虫的抓取思路是:
(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接
(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻。
但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅。也希望有能力的朋友们帮着改进一下。

自动抓取163新闻的Python爬虫源码如下:

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

#coding:utf-8

importre, urllib

strTitle =""

strTxtTmp =""

strTxtOK =""

f =open("163News.txt", "w+")

m =re.findall(r"news\.163\.com/\d.+?<\/a>",urllib.urlopen("http://www.163.com").read(),re.M)

#www.iplaypy.com

fori inm:

testUrl =i.split(‘"‘)[0]

if testUrl[-4:-1]=="htm":

strTitle = strTitle + "\n" + i.split(‘"‘)[0] +i.split(‘"‘)[1]  # 合并标题头内容

okUrl = i.split(‘"‘)[0] # 重新组合链接

UrlNews =‘‘

UrlNews ="http://"+okUrl

printUrlNews

"""

查找分析链接里面的正文内容,但是由于 163 新闻的格式不是非常统一,所以只能说大部分可以。

整理去掉部分 html 代码,让文本更易于观看。

"""

n =re.findall(r"

(.*?)<\/P>",urllib.urlopen(UrlNews).read(),re.M)

forj inn:

iflen(j)<>0:

j =j.replace(" ","\n")

j =j.replace("","\n_____")

j =j.replace("","_____\n")

strTxtTmp =strTxtTmp +j +"\n"

strTxtTmp =re.sub(r"", r"", strTxtTmp)

strTxtTmp =re.sub(r"<\/[Aa]>", r"", strTxtTmp)

strTxtOK =strTxtOK +"\n\n\n==============="+

i.split(‘"‘)[0] + i.split(‘"‘)[1] +"===============\n"+strTxtTmp

strTxtTmp ="" # 组合链接标题和正文内容

printstrTxtOK

f.write(strTitle +"\n\n\n"+strTxtOK)# 全部分析完成后,写入文件

f.close()#关闭文件

文章代码实效性有限,还请适当做修改后再使用。

时间: 2024-10-18 12:57:12

自动抓取163新闻的Python爬虫源码的相关文章

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫 等

Python抓取学院新闻报告

Python案例 scrapy抓取学院新闻报告 任务 抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询. 实验流程 1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据 1.确定抓取目标 我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构. 这里我们发现想要抓到全部的新闻信息,不能直接在官网首页进行抓取,需要点击"more"进入到新闻总栏目里面. 我们看到了具体的新

用calibre抓取RSS新闻制作电子书及推送到kindle

calibre可以从RSS源抓取内容,转换成它所支持格式的电子书,还可以推送到阅读器设备.下面来看看在calibre图形界面和命令行下如何实现这些功能. 在图形界面抓取新闻 自定义新闻来源 看看我们自定义了什么 命令行下生成电子杂志 命令行推送到Kindle 简单定时推送的实现 一些要注意的问题 其它方法 参考 calibre可以从RSS源抓取内容,转换成它所支持格式的电子书,还可以推送到阅读器设备.下面来看看在calibre图形界面和命令行下如何实现这些功能. 在图形界面抓取新闻 打开cali

Java广度优先爬虫示例(抓取复旦新闻信息)

一.使用的技术 这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE)为intelij 13.1,Jar包管理工具为Maven,不习惯用intelij的同学,也可以使用eclipse新建一个项目. 二.爬虫基本知识 1.什么是网络爬虫?(爬虫的基本原理) 网络爬虫,拆开来讲,网络即指互联网,互联网就像一个蜘蛛网一样,爬虫就像是蜘蛛一样可以到处爬来爬去,把

利用scrapy抓取网易新闻并将其存储在mongoDB

好久没有写爬虫了,写一个scrapy的小爬爬来抓取网易新闻,代码原型是github上的一个爬虫,近期也看了一点mongoDB.顺便小用一下.体验一下NoSQL是什么感觉.言归正传啊.scrapy爬虫主要有几个文件须要改动.这个爬虫须要你装一下mongodb数据库和pymongo,进入数据库之后.利用find语句就能够查看数据库中的内容,抓取的内容例如以下所看到的: { "_id" : ObjectId("5577ae44745d785e65fa8686"), &qu

scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库

利用scrapy抓取蛋壳公寓上的房源信息,以北京市为例,目标url:https://www.dankegongyu.com/room/bj 思路分析 每次更新最新消息,都是在第一页上显示,因此考虑隔一段时间自动抓取第一页上的房源信息,实现抓取最新消息. 利用redis的set数据结构的特征,将每次抓取后的url存到redis中: 每次请求,将请求url与redis中的url对比,若redis中已存在该url,代表没有更新,忽略该次请求:若redis中不存在该url,代表该信息是新信息,抓取并将u

IIS崩溃时自动抓取Dump

背景:在客户现场,IIS有时会崩溃,开发环境没法重现这个bug,唯有抓取IIS的崩溃是的Dump文件分析. IIS崩溃时自动抓取Dump,需要满足下面几个条件 1.启动 Windows Error Reporting Service 服务 2.移除默认的调试器 如果你的机器装了VS开发工具,会在注册表里写入调试器地址,需要把它删除. 找到注册表删除以下2个项目HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\AeDeb

瓜子二手车爬虫源码

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 更多源码下载点这里 */ var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www

沪商财富爬虫源码

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里 代码详细讲解点这里 更多源码下载点这里 var configs = { domains: ["www.hushangcaifu.com"], scanUrls: ["http://www.hushangcaifu.com/