网页正文抽取

转自丕子：http://www.zhizhihu.com/html/y2013/4202.html

总结我用过的网页正文抽取工具： decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b boilerpipe http://t.cn/h41EEs python-boilerpipehttp://t.cn/zYeoyPw pismo http://t.cn/zYeoyP2 Goose http://t.cn/zYeoZ8G Python Goose http://t.cn/zYeoZ8q

@丕子:有个测试链接：http://jimplush.com/blog/goose 测试了个链接，goose没提出来，cx-ectractor提出来了；不过goose的metadata以及image等不错；谁有空写个吧，两者优点结合一下。

@52nlp: 转cx-ectractor(http://t.cn/hDO2xf )的维护者 @陈鑫Shin @王利锋Fandy //@陈阿荣: cx-extractor //@马少平THU: 这个确实有难度，我们也没有什么好方法。@王利锋Fandy: 在我的硕士论文中给出了形式化数学表示，详细请见：http://t.cn/zYeAJSc，希望对大家有帮助

木子海波：自吹自擂一下。http://blog.csdn.net/marising/article/details/6101101

开源中国：可看看这个开源项目 http://t.cn/zYeL9Jn

数据挖掘研究院：h2w.iask.cn

licstar：NReadability http://t.cn/zYewPMn

我不是勒瑟：搜一下这篇论文：DOM Based Content Extraction via Text Density

@梁斌推一下，各大公司都有做这个的，搜狗这个叫PA，page analysis，我也短期维护过，目前是某哥们再搞

最后：http://tomazkovacic.com/blog/56/list-of-resources-article-text-extraction-from-html-documents/

@KissDev

正文抽取的开源代码，基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet：http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper：http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法

时间： 2024-08-08 02:50:53

网页正文抽取的相关文章

网页正文抽取（包含提取图片）

转自:http://bbs.it-home.org/thread-12676-1-1.html /** *@author Xin Chen *Created on 2009-11-11 *Updated on 2010-08-09 *Email: [email protected] *Blog: http://hi.baidu.com/爱心同盟_陈鑫 *Modified By : Yang @ http://www.chainlt.com */ import java.util.ArrayLis

按示例学python：使用python抓取网页正文

本方法是基于文本密度的方法,最初的想法来源于哈工大的<基于行块分布函数的通用网页正文抽取算法>,本文基于此进行一些小修改. 约定: 本文基于网页的不同行来进行统计,因此,假设网页内容是没有经过压缩的,就是网页有正常的换行的. 有些新闻网页,可能新闻的文本内容比较短,但其中嵌入一个视频文件,因此,我会给予视频较高的权重:这同样适用于图片,这里有一个不足,应该是要根据图片显示的大小来决定权重的,但本文的方法未能实现这一点. 由于广告,导航这些非正文内容通常以超链接的方式出现,因此文本将给予超链接的

网页正文内容抽取测试

通过网页解析,抽取网页正文内容原文地址:https://www.cnblogs.com/chenying99/p/10068855.html

crawler_基于块儿统计正文抽取_改进版

import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.regex.Pattern; /** * <p> * 在线性时间内抽取主题类(新闻.博客等)网页的正文. 采用了<b>基于行块分布函数</b>的方法,为保持通用性没有针对特定网站编写规则. * </p> * * @author Chen Xin([email protecte

基于文本密度的新闻正文抽取方法之Python实现

参考文章链接: http://www.cnblogs.com/jasondan/p/3497757.html http://d.wanfangdata.com.cn/Patent/CN201410007832.6/ 基于网页分析构思出的正文提取算法回顾以上的网页分析,如果按照文本密度来找提取正文,那么就是写这么一个算法,能够从过滤html标签后的文本中找到正文文本的起止行号,行号之间的文本就是网页正文部分. 还是从上面三个网页的分析结果看,他们都有这么一个特性:正文部分的文本密度要高出非正文部

提取网页正文的开源库的比较

前段时间在工作中,需要提取出网页的正文,就试验了一下机中提取网页正文开源库. 试验中主要试验了java和python两种提取正文的开源库,测试的连接是:http://www.chinanews.com/gj/2014/11-19/6791729.shtml.结果如下: A.Java: 1.Cx-extractor( http://cx-extractor.googlecode.com):基于行块的分布来提取网页中的正文. 提取的方法是首先使用Jsoup来获取网页的内容,之后将内容传给cx-ext

c#实现网页正文抓取

需要记住的,随笔记一下 1.抓取远程网页源码,这里要实现自动判断网页编码,否则有可能抓到乱码.我是先看应答的 http头的chareset,一般这个很准,但像csdn的新闻比较变态http应答的头里的chareset和网页的meta里声明的 chareset不一致,所以我手工加了一下判断,如果不一致再在内存流里用网页声明的编码读取一遍源码 2.把网页分割成几大块.试用了一下tidy的.net包装及HtmlParse的.net版本,都不太好用.于是我自己写了个算法,可以把网页里的div块,td块等

python BeautifulSoup获取网页正文

通过BeautifulSoup库的get_text方法找到网页的正文: #!/usr/bin/env python #coding=utf-8 #HTML找出正文 import requests from bs4 import BeautifulSoup url='http://www.baidu.com' html=requests.get(url) soup=BeautifulSoup(html.text) print soup.get_text()

常见的提取网页正文的方法

Python readability的使用: from readability.readability import Document import urllib html = urllib.urlopen(url).read() readable_article = Document(html).summary() readable_title = Document(html).short_title() 最后抽取出来的readable_article是带HTML标签的文本.还需要进行clea