自动抓取163新闻的Python爬虫源码

Python爬虫的学习，自动抓取163新闻的Python爬虫源码，这是一个用Python语言编写的，自动抓取网易新闻的python爬虫实现方法一文。

Python爬虫的抓取思路是：
（1）通过分析目标新闻网址，分析其中以News.xxx.com 开头的链接
（2）获取每一个链接的内容，并做整理合并到事前准备好的.txt 文本中，以便查看各新闻。
但是需要注意的是：由于今天的测试对象，网易新闻的格式不是非常统一，所有会有部分漏掉的情况，还能大家见谅。也希望有能力的朋友们帮着改进一下。

自动抓取163新闻的Python爬虫源码如下：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

#coding:utf-8

importre, urllib

strTitle =""

strTxtTmp =""

strTxtOK =""

f =open("163News.txt", "w+")

m =re.findall(r"news\.163\.com/\d.+?<\/a>",urllib.urlopen("http://www.163.com").read(),re.M)

#www.iplaypy.com

fori inm:

testUrl =i.split(‘"‘)[0]

if testUrl[-4:-1]=="htm":

strTitle = strTitle + "\n" + i.split(‘"‘)[0] +i.split(‘"‘)[1] # 合并标题头内容

okUrl = i.split(‘"‘)[0] # 重新组合链接

UrlNews =‘‘

UrlNews ="http://"+okUrl

printUrlNews

"""

查找分析链接里面的正文内容，但是由于 163 新闻的格式不是非常统一，所以只能说大部分可以。

整理去掉部分 html 代码，让文本更易于观看。

"""

n =re.findall(r"

(.*?)<\/P>",urllib.urlopen(UrlNews).read(),re.M)

forj inn:

iflen(j)<>0:

j =j.replace(" ","\n")

j =j.replace("","\n_____")

j =j.replace("","_____\n")

strTxtTmp =strTxtTmp +j +"\n"

strTxtTmp =re.sub(r"", r"", strTxtTmp)

strTxtTmp =re.sub(r"<\/[Aa]>", r"", strTxtTmp)

strTxtOK =strTxtOK +"\n\n\n==============="+

i.split(‘"‘)[0] + i.split(‘"‘)[1] +"===============\n"+strTxtTmp

strTxtTmp ="" # 组合链接标题和正文内容

printstrTxtOK

f.write(strTitle +"\n\n\n"+strTxtOK)# 全部分析完成后，写入文件

f.close()#关闭文件

文章代码实效性有限，还请适当做修改后再使用。

时间： 2024-10-18 12:57:12

自动抓取163新闻的Python爬虫源码的相关文章

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫等

Python抓取学院新闻报告

Python案例 scrapy抓取学院新闻报告任务抓取四川大学公共管理学院官网(http://ggglxy.scu.edu.cn)所有的新闻咨询. 实验流程 1.确定抓取目标.2.制定抓取规则.3.'编写/调试'抓取规则.4.获得抓取数据 1.确定抓取目标我们这次需要抓取的目标为四川大学公共管理学院的所有新闻资讯.于是我们需要知道公管学院官网的布局结构. 这里我们发现想要抓到全部的新闻信息,不能直接在官网首页进行抓取,需要点击"more"进入到新闻总栏目里面. 我们看到了具体的新

用calibre抓取RSS新闻制作电子书及推送到kindle

calibre可以从RSS源抓取内容,转换成它所支持格式的电子书,还可以推送到阅读器设备.下面来看看在calibre图形界面和命令行下如何实现这些功能. 在图形界面抓取新闻自定义新闻来源看看我们自定义了什么命令行下生成电子杂志命令行推送到Kindle 简单定时推送的实现一些要注意的问题其它方法参考 calibre可以从RSS源抓取内容,转换成它所支持格式的电子书,还可以推送到阅读器设备.下面来看看在calibre图形界面和命令行下如何实现这些功能. 在图形界面抓取新闻打开cali

Java广度优先爬虫示例(抓取复旦新闻信息)

一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE)为intelij 13.1,Jar包管理工具为Maven,不习惯用intelij的同学,也可以使用eclipse新建一个项目. 二.爬虫基本知识 1.什么是网络爬虫?(爬虫的基本原理) 网络爬虫,拆开来讲,网络即指互联网,互联网就像一个蜘蛛网一样,爬虫就像是蜘蛛一样可以到处爬来爬去,把

利用scrapy抓取网易新闻并将其存储在mongoDB

好久没有写爬虫了,写一个scrapy的小爬爬来抓取网易新闻,代码原型是github上的一个爬虫,近期也看了一点mongoDB.顺便小用一下.体验一下NoSQL是什么感觉.言归正传啊.scrapy爬虫主要有几个文件须要改动.这个爬虫须要你装一下mongodb数据库和pymongo,进入数据库之后.利用find语句就能够查看数据库中的内容,抓取的内容例如以下所看到的: { "_id" : ObjectId("5577ae44745d785e65fa8686"), &qu

scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库

利用scrapy抓取蛋壳公寓上的房源信息,以北京市为例,目标url:https://www.dankegongyu.com/room/bj 思路分析每次更新最新消息,都是在第一页上显示,因此考虑隔一段时间自动抓取第一页上的房源信息,实现抓取最新消息. 利用redis的set数据结构的特征,将每次抓取后的url存到redis中: 每次请求,将请求url与redis中的url对比,若redis中已存在该url,代表没有更新,忽略该次请求:若redis中不存在该url,代表该信息是新信息,抓取并将u

IIS崩溃时自动抓取Dump

背景:在客户现场,IIS有时会崩溃,开发环境没法重现这个bug,唯有抓取IIS的崩溃是的Dump文件分析. IIS崩溃时自动抓取Dump,需要满足下面几个条件 1.启动 Windows Error Reporting Service 服务 2.移除默认的调试器如果你的机器装了VS开发工具,会在注册表里写入调试器地址,需要把它删除. 找到注册表删除以下2个项目HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\AeDeb

瓜子二手车爬虫源码

/*使用javascript编写的爬虫源码,用于爬取瓜子二手车上的二车手信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里更多源码下载点这里 */ var scanUrl = "http://www.guazi.com/hz/buy/";//@input(scanUrl, 入口url, 请输入一个需爬取城市的url,格式为:“http://www

沪商财富爬虫源码

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了, 不需要安装编译环境.要爬取其他网站,可以更改源码即可. 代码执行具体步骤点这里代码详细讲解点这里更多源码下载点这里 var configs = { domains: ["www.hushangcaifu.com"], scanUrls: ["http://www.hushangcaifu.com/

猜你喜欢

【设计模式】六大原则总结

一.『Single Responsibility Principle』单一职责原则单一职责原则的核心精神是:一个类,或者一个接口,最好只做一件事情,当发生变化时,他只能受到单一的影响:因为职责过多, ...

EDKII: 磁盘操作之 BlockIo(2), DiskIo(2)

EDKII中提供了几种磁盘操作方法,包括同步/异步,块操作/任意操作.整理如下: 函数备注 BlockIo BlockIo2 DiskIo DiskIo2 操作方式按Block 按Block ...

树 - 二叉树

读了Robert Sedgewick的<算法:C语言实现>(第三版)的第五章,了解了许多关于树,特别是二叉树的知识.这里总结一下.直接看代码(C++)吧. 1 #include <c ...

计算机的存储单位

位 bit (比特)(Binary Digits):存放一位二进制数,即 0 或 1,最小的存储单位. 字节 byte:8个二进制位为一个字节(B),最常用的单位. 即1B(byte 字节) = 8 ...

搭建主DNS服务器

DNS是在网络中将计算机名转换成IP的一个服务,在LINUX中可以很轻松的搭建一台DNS服务器,我们需要在LINUX系统中安装DNS服务(安装包名:bind)为了安全我们通常用一起安装bind-chr ...

boa.config

# boa -c /usr/local/boa Port 80 #User 0#Group 0 ErrorLog /dev/console AccessLog /dev/console ServerN ...

PHP程序z中xdebug工具简要使用方法

PHP程序的debug PHP程序的debug,无论是cli方式还是web方式,都需要使用第三方的debug工具.PHP5.6之前,本身自带的debug功能,仅限于日志输出. 推荐使用免费xdebug ...

POI 身份证号码手机号日期值的处理方式

1 private static SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss") ...

bind支持mysql

最近打算将bind的记录信息存入到数据库中去,网上找了下,原来早有老外写好了mysql-bind的补丁,重新编译bind即可实现bind支持mysql存储.(http://mysql-bind.sou ...

每天一个Linux命令（23）--linux 目录结构（二）

二./usr 的意义与内容依据FHS的基本定义, /usr 里面放置的数据属于可分享的与不可变动的(shareable,static), 如果你知道如何透过网络进行分区的挂载(例如在服务器篇会谈到的 ...

TimesTen 应用层数据库缓存学习：18. 利用TimesTen实现Sharding或数据分区

考虑到恢复和磁盘加载到内存的速度,单个TimesTen数据库可以缓存的数据一般不超过100G,如果需要缓存的数据较大,一般可以利用多个TimesTen来实现数据分区或分片(Sharding). 虽然T ...

非常标准的将数据保存到file并从file中读取数据。

字符流:Reader(读) Writer(写) 字节流:InputStream(读数据) OutputStream(写数据) 1,字节流 InputStream(读),OutputStream(写) ...

Ubuntu下压缩文件

数据压缩对我们来说是非常有用的.无论是在邮件中发送的图片用的zip文件还是在服务器压缩数据文件,我们都可以让下载更容易或者有效的节约磁盘空间.某些压缩格式有时允许我们以60%的比率(甚至更高)压缩文 ...

可变参数模板

一.基本语法声明一个带有可变参数个数的模板的语法如下所示: template<typename ...Element> class tuple; tuple<int, string ...

Java for LeetCode 187 Repeated DNA Sequences

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACG ...

Jsoup+HttpClient获取新浪新闻数据

package com.test; import java.io.IOException; import java.net.URI; import org.apache.http.Header; im ...

OpenCV SIFT原理与源码分析

http://blog.csdn.net/xiaowei_cqu/article/details/8069548 SIFT简介 Scale Invariant Feature Transform,尺度 ...

java 反射(reflect)总结，附对象打印工具类

java反射机制认知 java反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法:对于任意一个对象,都能够调用它的任意一个方法和属性:这种动态获取类的信息以及动态调用对象的方法的 ...

UVa 11695 树的直径 Flight Planning

题意: 给出一棵树,删除一条边再添加一条边,求新树的最短的直径. 分析: 因为n比较小(n ≤ 2500),所以可以枚举删除的边,分裂成两棵树,然后有这么一个结论: 合并两棵树后得到的新树的最短直径为 ...

WPF入门教程系列六——布局介绍与Canvas（一）

从这篇文章开始是对WPF中的界面如何布局做一个较简单的介绍,大家都知道:UI是做好一个软件很重要的因素,如果没有一个漂亮的UI,功能做的再好也无法吸引很多用户使用,而且没有漂亮的界面,那么普通用户会感 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.