Python readability提取网页正文的优化

Python readability的使用：

from readability.readability import Document

import urllib

html = urllib.urlopen(url).read()

readable_article = Document(html).summary()

readable_title = Document(html).short_title()

最后抽取出来的readable_article是带HTML标签的文本。然而在好多情况下经过readability过滤后的带HTML标签的文本是我们不想要的，也就是readability取错内容了，面对这种情况我们可以先对传入前的html操作。

例如，需要提取的正文在<div class="arti-con rel">下即<div class="arti-con rel">与<div class="clearfix page-n-p-con">之间，我们可以采取下面的操作。

from readability.readability import Document

from scrapy .selector import HtmlXPathSelector
from scrapy.http import HtmlResponse

import urllib

html = urllib.urlopen(url).read()

content_t = html.split(‘<div class="arti-con rel">‘)[-1].strip().split(‘<div class="clearfix page-n-p-con"‘)[0].strip()
content_t = ‘<div class="arti-con rel">‘ + content_t

readable_article = Document(content_t ).summary()

response = HtmlResponse(url=‘‘, body=readable_article, encoding=‘utf8‘)
hxs = HtmlXPathSelector(response)

html_content = ‘‘.join(hxs.select(‘//text()‘).extract()).strip()

经过这样处理获得的正文相对干净，并减少了获取不到的现象，缺点是不适合多种页面的网站。

时间： 2024-12-25 08:35:58

Python readability提取网页正文的优化的相关文章

提取网页正文的开源库的比较

前段时间在工作中,需要提取出网页的正文,就试验了一下机中提取网页正文开源库. 试验中主要试验了java和python两种提取正文的开源库,测试的连接是:http://www.chinanews.com/gj/2014/11-19/6791729.shtml.结果如下: A.Java: 1.Cx-extractor( http://cx-extractor.googlecode.com):基于行块的分布来提取网页中的正文. 提取的方法是首先使用Jsoup来获取网页的内容,之后将内容传给cx-ext

常见的提取网页正文的方法

Python readability的使用: from readability.readability import Document import urllib html = urllib.urlopen(url).read() readable_article = Document(html).summary() readable_title = Document(html).short_title() 最后抽取出来的readable_article是带HTML标签的文本.还需要进行clea

按示例学python：使用python抓取网页正文

本方法是基于文本密度的方法,最初的想法来源于哈工大的<基于行块分布函数的通用网页正文抽取算法>,本文基于此进行一些小修改. 约定: 本文基于网页的不同行来进行统计,因此,假设网页内容是没有经过压缩的,就是网页有正常的换行的. 有些新闻网页,可能新闻的文本内容比较短,但其中嵌入一个视频文件,因此,我会给予视频较高的权重:这同样适用于图片,这里有一个不足,应该是要根据图片显示的大小来决定权重的,但本文的方法未能实现这一点. 由于广告,导航这些非正文内容通常以超链接的方式出现,因此文本将给予超链接的

python BeautifulSoup获取网页正文

通过BeautifulSoup库的get_text方法找到网页的正文: #!/usr/bin/env python #coding=utf-8 #HTML找出正文 import requests from bs4 import BeautifulSoup url='http://www.baidu.com' html=requests.get(url) soup=BeautifulSoup(html.text) print soup.get_text()

python 正则表达式提取网页中标签的中文

转载请注明出处 http://www.cnblogs.com/pengwang57/. >>> p= re.compile(r'\<div class="comment-content comment-content_new"\>([^x00-xff]*)\<\/div\>') >>> text='<div class="comment-content comment-content_new">

Python Show-Me-the-Code 第 0008 题提取HTML正文内容

第 0008 题:一个HTML文件,找出里面的正文. 思路:我把这里的正文理解为网页中我主要内容,那么怎么去抓取这个主要内容呢?我一开始的想法是用beautifulsoup来解析网页,但是又想到如果要抽取正文的话这样做还涉及到比较复杂的算法,而且对于不同的网页来说效果可能做不到很好.后来我发现了Python-goose(Github)这个神器,它是基于NLTK和Beautiful Soup的,分别是文本处理和HTML解析的领导者,目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,

Python Show-Me-the-Code 第 0009 题提取网页中的超链接

第 0009 题:一个HTML文件,找出里面的链接. 思路:对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含javascript:xxx和#xxx之类的,所以要对这些进行特殊处理. 0009.提取网页中的超链接.py #!/usr/bin/env python #coding: utf-8 from bs4 import BeautifulSoup import urllib import

网页正文抽取（包含提取图片）

转自:http://bbs.it-home.org/thread-12676-1-1.html /** *@author Xin Chen *Created on 2009-11-11 *Updated on 2010-08-09 *Email: [email protected] *Blog: http://hi.baidu.com/爱心同盟_陈鑫 *Modified By : Yang @ http://www.chainlt.com */ import java.util.ArrayLis

python学习笔记——爬虫中提取网页中的信息

1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层.因此,它也被称为自描述的结构.常见的半结构数据有HTML,XML和JSON等,实际上是以树或者图的结构来存储的. <person> <name>A</name> &l

猜你喜欢

浅谈三层

三层大家都知道了,各种生活化的例子也就不再向大家举了.这里说说我对三层的理解. 三层: 所谓三层体系结构,是在客户端与数据库之间加入了一个"中间层",也叫组件层.这里所说的三层体系 ...

看完让你彻底搞懂Websocket原理

偶然在知乎上看到一篇回帖,瞬间觉得之前看的那么多资料都不及这一篇回帖让我对 websocket 的认识深刻有木有.所以转到我博客里,分享一下.比较喜欢看这种博客,读起来很轻松,不枯燥,没有布道师的阵仗 ...

python专题-读取xml文件

关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件. 什么是 ...

HBase in Action前三章笔记

近期接触HBase,看了HBase In Action的英文版.開始认为还行,做了些笔记.可是兴许看下去,越来越感觉到实战这本书比較偏使用上的细节,对于HBase的具体设计涉及得很少.把前三章的一些笔 ...

python-------------输入三次锁定用户-----作业

1,首先要先定义两个文件,1个是用户文件,1个是黑名单文件,我是用用户文件里事先定义的用户名和密码来实现输入三次错误的用户名来锁定用户,随后加入黑名单.重新启动程序,不允许这个黑名单用户登录 ...

大道至简第一章读后感

当今社会,信息化飞速发展,软件的需求也越来越高,而<大道至简>给我们点透了编程的精义. 大道至简第一是讲的便是编程的精义,文章借愚公移山这个故事来阐释编程的基本思路:出现一个问题(惩山北之 ...

阿里云服务器访问不了外网

解决方案把DNS改成 8.8.8.8

LayoutInflater源码解析

Android使用LayoutInflater来进行布局加载,通常获取方式有两种: 第一种: LayoutInflater layoutInflater = LayoutInflater.from(c ...

姿足宗组柞驻遵钻卒琢坐走座椎醉

http://imgur.com/dnDlLiQ/?20150315 http://imgur.com/MTAX2Jj/?20150315 http://imgur.com/lt77JGt/?2 ...

【经典算法】寻找最长01字串（转自待字闺中）

这两天在微信公众号“待字闺中”中看到一个经典的面试算法,寻找最长01字串,原题目是这么说的: 给定一个数组,数组中只包含0和1.请找到一个最长的子序列,其中0和1的数量是相同的. 例1:1010101 ...

算法导论基础（第一~五章）

插入排序最好情况输入数组开始时候就是满足要求的排好序的,时间代价为θ(n): 最坏情况输入数组是按逆序排序的,时间代价为θ(n^2). 归并排序归并排序采用了算法设计中的分治法,分治法的思想是将原 ...

平原开始出现了

望着半中出现的根就看不见尽头http://weibo.com/2015_09-16/p/1001603887555459301561http://weibo.com/2015_09-16/p/1001 ...

SQLite数据库和JPA简单介绍

SQLite数据库和JPA简单介绍一.SQLite简单使用 SQLite是遵循ACID的关系数据库管理系统,它的处理速度很快,它的设计目标是嵌入式的,只需要几百K的内存就可以了. 1.下载SQLit ...

JavaScript高级程序设计27.pdf

第11章 DOM扩展 W3C将一些已经成为事实标准的专有扩展标准化并写入规范当中.对DOM的两个主要扩展是SelectorsAPI(选择符API)和HTML5 选择符API 就是根据CSS选择符选择与 ...

注解与反射 ---Spring与Mybatis等框架的实现原理

Java中各大框架,无论是AOP 还是 IoC 其基本实现思路都是源自Java 运行时支撑的反射功能, 而反射最基本的一点就是任何一个类其在JVM环境中,都有一个对象的Class对象,这个对象提供 ...

Web报表工具JS开发之日期校验

在报表开发过程中,我们常常需要对查询界面进行日期校验.例如有两个参数:开始日期和结束日期,我们要校验的是:开始日期与结束日期不能为空,结束日期必须在开始日期之后以及结束日期必须在开始日期后的某个时间段 ...

2016年4月19日useradd/du/df/passwd/usermod命令

一.useradd命令 useradd命令-M -u -s -g 常用 -c:加上备注文字,备注文字保存在passwd的备注栏中. -d:指定用户登入时的启始目录. -D:变更预设值.(修改默认配置 ...

dhtmlx使用学习

Var tabbar=new dhtmlXTabBar("tab","top"); tabbar.setImagePath("./tabbar/cod ...

【递推】【卡特兰数】CODEVS 3134 Circle

新GET了一种卡特兰数的应用…… 在一个圆上,有2*K个不同的结点,我们以这些点为端点,连K条线段,使得每个结点都恰好用一次.在满足这些线段将圆分成最少部分的前提下,请计算有多少种连线的方法. 不会证 ...

怎么快速引爆新站权限

一般情况之下站长们都认为首页权重高了,自然可以带动内页从而获得高流量和高排名,所以90%的站长都是从首页与目标关键词开始入手优化网站.但是今天笔者的方法恰恰与大家相反,这是我半年之前开始优化的一个网站 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.