用groovy采集网页数据

首先,用?http://groovyconsole.appspot.com/?测试下面的代码,发现引用总是失败.

下载了GGTS:?https://spring.io/tools/ggts

测试成功:?

?

@Grapes( @Grab(group=‘org.ccil.cowan.tagsoup‘, module=‘tagsoup‘, version=‘1.2‘) )
import org.ccil.cowan.tagsoup.Parser;

class TestHtml {

public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )

def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"

new URL(url).withReader (ENCODING) { reader ->

def document = PARSER.parse(reader)
def data = document.‘**‘.find {[email protected] == ‘data-table1‘}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1][email protected]().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}

data.each { it -> println it }
}
}
}

时间: 2024-08-28 18:47:42

用groovy采集网页数据的相关文章

不需要编程,你也可以灵活采集网页数据

互联网中的数据是海量的,然而大数据的重点并不在"大",而在于"有用"."如何自动高效地采集互联网中我们需要的数据信息并为我们所用?"这是一个重要的问题!而爬虫技术就是为了解决这些问题而生的. 什么是网络爬虫? 网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.它们可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容或检索方式. 网络爬虫的原理过程 1.发起请求通过HTTP库向目标

如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter

  云采集使用教程(发布到WeCenter) 1. 注册账号 打开神箭手官网(http://www.shenjianshou.cn/),注册一个账号: 2.获取采集规则 点击官网首页右上角的“云市场”,在市场里免费获取采集规则: 3.采集数据 1)         进入“管理控制台”: 2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”): 3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页: 4)    

如何采集网页数据并发布到Discuz

1. 注册账号 打开神箭手官网(http://www.shenjianshou.cn/),注册一个账号: 2.获取采集规则 点击官网首页右上角的“云市场”,在市场里免费获取采集规则: 3.采集数据 1)         进入“管理控制台”: 2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”): 3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页: 4)         点击右上角的“启动”,采集任务便立即

采集网页数据生成到静态模板newslist.html文件中(正则表达式)

采集数据源:http://www.sgcc.com.cn/xwzx/gsyw/ //根据URL地址获取所有html public static string GetUrltoHtml(string Url, string type) { try { System.Net.WebRequest wReq = System.Net.WebRequest.Create(Url); // Get the response instance. System.Net.WebResponse wResp =

一个我经常用到的采集网页数据抓取网页获取数据的PHP函数类

class get_c_str { var $str; var $start_str; var $end_str; var $start_pos; var $end_pos; var $c_str_l; var $contents; function get_str($str,$start_str,$end_str){ $this->str = $str; $this->start_str = $start_str; $this->end_str = $end_str; $this-&g

抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程

本文主要介绍如何抓取网页中的内容.如何解决乱码问题.如何解决登录问题以及对所采集的数据进行处理显示的过程.效果如下所示: 1.下载网页并加载至HtmlAgilityPack 这里主要用WebClient类的DownloadString方法和HtmlAgilityPack中HtmlDocument类LoadHtml方法来实现.主要代码如下. var url = page == 1 ? "http://www.cnblogs.com/" : "http://www.cnblogs

动态网页数据的采集方案

我在上一篇文章中介绍了使用ScrapySharp快速从网页中采集数据,这种方式是通过直接发送的Http请求来获取的原始页面信息,对于静态网页非常有效,但还有许多网站中的页面内容并非全部存放在原始的页面中,很多内容是通过javascript来动态生成的,这些数据用前面的方式就抓取不到了.本文这里就简单的介绍一下动态网页的采集方案. 对于这样的网页数据的采集,往往是利用一个浏览器引擎来实现整个页面的加载,输出加载完后的完整页面,然后就可以利用ScrapySharp等工具解析了.常用有如下几种方式:

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

转自原文C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 阅读目录 1.HtmlAgilityPack简介 2.XPath技术介绍与使用 3.采集天气网站案例 4.资源 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几

Asp.net 使用正则和网络编程抓取网页数据(实用)

Asp.net 使用正则和网络编程抓取网页数据(实用) /// <summary> /// 抓取网页相应内容 /// </summary> /// <param name="strUrl">采集地址</param> /// <param name="Begin">开始字符</param> /// <param name="End">结束字符</param&g