用groovy采集网页数据

首先，用?http://groovyconsole.appspot.com/?测试下面的代码，发现引用总是失败.

下载了GGTS：?https://spring.io/tools/ggts

测试成功：?

?

@Grapes( @Grab(group=‘org.ccil.cowan.tagsoup‘, module=‘tagsoup‘, version=‘1.2‘) )
import org.ccil.cowan.tagsoup.Parser;

class TestHtml {

public static void main(String[] args){
String ENCODING = "UTF-8"
def PARSER = new XmlSlurper(new Parser() )

def url = "http://www.nfl.com/stats/categorystats?archive=false&conference=null&statisticCategory=PASSING&season=2010&seasonType=REG&experience=null&tabSeq=0&qualified=true&Submit=Go"

new URL(url).withReader (ENCODING) { reader ->

def document = PARSER.parse(reader)
def data = document.‘**‘.find {[email protected] == ‘data-table1‘}.tbody.tr.collect {
[
Rk: it.td[0].text().trim(),
Player: it.td[1].text().trim(),
PlayerUrl: "http://www.nfl.com" + it.td[1][email protected]().trim(),
Team: it.td[2].text().trim(),
Pos: it.td[3].text().trim()
]
}

data.each { it -> println it }
}
}
}

时间： 2024-10-28 14:55:26

用groovy采集网页数据的相关文章

不需要编程，你也可以灵活采集网页数据

互联网中的数据是海量的,然而大数据的重点并不在"大",而在于"有用"."如何自动高效地采集互联网中我们需要的数据信息并为我们所用?"这是一个重要的问题!而爬虫技术就是为了解决这些问题而生的. 什么是网络爬虫? 网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.它们可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容或检索方式. 网络爬虫的原理过程 1.发起请求通过HTTP库向目标

如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter

云采集使用教程(发布到WeCenter) 1. 注册账号打开神箭手官网(http://www.shenjianshou.cn/),注册一个账号: 2.获取采集规则点击官网首页右上角的“云市场”,在市场里免费获取采集规则: 3.采集数据 1) 进入“管理控制台”: 2) 新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”): 3) 完成任务配置,点击“保存”,系统会自动跳转到任务详情页: 4)

如何采集网页数据并发布到Discuz

1. 注册账号打开神箭手官网(http://www.shenjianshou.cn/),注册一个账号: 2.获取采集规则点击官网首页右上角的“云市场”,在市场里免费获取采集规则: 3.采集数据 1) 进入“管理控制台”: 2) 新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”): 3) 完成任务配置,点击“保存”,系统会自动跳转到任务详情页: 4) 点击右上角的“启动”,采集任务便立即

采集网页数据生成到静态模板newslist.html文件中（正则表达式）

采集数据源:http://www.sgcc.com.cn/xwzx/gsyw/ //根据URL地址获取所有html public static string GetUrltoHtml(string Url, string type) { try { System.Net.WebRequest wReq = System.Net.WebRequest.Create(Url); // Get the response instance. System.Net.WebResponse wResp =

一个我经常用到的采集网页数据抓取网页获取数据的PHP函数类

class get_c_str { var $str; var $start_str; var $end_str; var $start_pos; var $end_pos; var $c_str_l; var $contents; function get_str($str,$start_str,$end_str){ $this->str = $str; $this->start_str = $start_str; $this->end_str = $end_str; $this-&g

抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程

本文主要介绍如何抓取网页中的内容.如何解决乱码问题.如何解决登录问题以及对所采集的数据进行处理显示的过程.效果如下所示: 1.下载网页并加载至HtmlAgilityPack 这里主要用WebClient类的DownloadString方法和HtmlAgilityPack中HtmlDocument类LoadHtml方法来实现.主要代码如下. var url = page == 1 ? "http://www.cnblogs.com/" : "http://www.cnblogs

动态网页数据的采集方案

我在上一篇文章中介绍了使用ScrapySharp快速从网页中采集数据,这种方式是通过直接发送的Http请求来获取的原始页面信息,对于静态网页非常有效,但还有许多网站中的页面内容并非全部存放在原始的页面中,很多内容是通过javascript来动态生成的,这些数据用前面的方式就抓取不到了.本文这里就简单的介绍一下动态网页的采集方案. 对于这样的网页数据的采集,往往是利用一个浏览器引擎来实现整个页面的加载,输出加载完后的完整页面,然后就可以利用ScrapySharp等工具解析了.常用有如下几种方式:

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

转自原文C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 阅读目录 1.HtmlAgilityPack简介 2.XPath技术介绍与使用 3.采集天气网站案例 4.资源第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几

Asp.net 使用正则和网络编程抓取网页数据(实用)

Asp.net 使用正则和网络编程抓取网页数据(实用) /// <summary> /// 抓取网页相应内容 /// </summary> /// <param name="strUrl">采集地址</param> /// <param name="Begin">开始字符</param> /// <param name="End">结束字符</param&g

猜你喜欢

Node.JS + Mysql数据库

服务嘛,当然离不开数据库了,你要是见到数据就哭了,我建议你还是看看本文,不要做数据哭啊,哈哈哈要做 '数据酷'嘛,哈哈哈一安装 1. wget -i -c http://dev.mysql.co ...

测试rss与navicat连接

在navcat建表按照下表: 主要内容:对Rsseasy后台框架的更改说明日期:2017-06-21 版本:RssSysFrame_zlf_v1.0.0 1.总体命名规则(源代码) 第一条:所有带有 ...

Angularjs的核心概念

1. 客户端模板多页面的应用通过组装和拼接服务器上的数据来生成HTML,然后输出到浏览器.Angularjs不同于此的是,传递模板和数据到浏览器,然后在浏览器端进行组装.浏览器的角色编程了只提供模板 ...

洛谷1508 Likecloud-吃、吃、吃

题目背景问世间,青春期为何物? 答曰:“甲亢,甲亢,再甲亢:挨饿,挨饿,再挨饿!” 题目描述正处在某一特定时期之中的李大水牛由于消化系统比较发达,最近一直处在饥饿的状态中.某日上课,正当他饿得头昏 ...

八大排序算法python实现（转）

一.概述排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存. 我们这里说说八大排序就是内部排序. 当 ...

Json介绍

GSON JSON 介绍 Gson 下载 Gson 解析和格式化 Gson 格式化 Gson 解析 Json 介绍 Json 全称 JavaScript Object Natation ,用来描述 ...

mutable用于修改const成员函数中的成员变量

http://no001.blog.51cto.com/1142339/389840/ mutalbe的中文意思是“可变的,易变的”,跟constant(既C++中的const)是反义词. 在C++中 ...

Android 动画学习笔记

Android动画的两种:Frame帧动画.Tween动画(位移动画)[实现:存放目录res/anim] Tween动画:(位移.缩放.旋转):通过对场景里的对象不断做图像变换. 四种效果Alpha. ...

重要的几个热键[Tab], [ctrl]-c, [ctrl]-d

来源于:鸟哥的Linux私房菜在继续后面的章节之前,这里很需要跟大家再来报告一件事,那就是我们的文字模式里头具有很多的功能按键, 这些按键可以辅助我们进行指令的编写与程序的中断呢!这几个按键请大家务 ...

//c++初识 #include<iostream> //包含c++标准头文件 //<iostream>和<iostream.h>格式不一样,前者没有后缀,实际上, ...

sqlserver中将行数据转为Xml文件格式

将sqlserver中的某张表中的行数据转为XML格式的文件的方法: 语法:select * from 表名 for xml path(xml文件中父节点的名称) 案例: // 在Movie数 ...

解决金蝶未检测到K/3许可文件，并且该账套已超过演示版期限问题

为什么会出现这个问题呢你用的金蝶没有授权金蝶有几个月的免费期,也就是演示版,当结账超过几个月,你的不是授权软件,就会出现这个问题像我们做金蝶开发的,不可能取购买正版的自己用,但要开发不能看,该怎 ...

继承——类、超类、子类

http://user.qzone.qq.com/1282179846/blog/1470248763 引入一个简单的例子: //Employee类 import java.util.*; publi ...

在QThread中使用QTimer

设计界面原型用定时器模拟程序运行,处理数据的程序运行时间很长,并要实时显示进度,需要使用多线程技术.运行程序出现下面的警告: 1 QObject::startTimer: timers cannot ...

外面的wifi很精彩，外面的wifi很不安

星期一果然很忙,看到安卓漏洞还是午休的时候,可能我们都习惯了,我们的信息安全一向难以得到保障.对于我来说,可能都无所谓了.但是作为用户之一,我们也不能太安分,该需要的保障还是得维护. 本来,我们就知道 ...

Spring MVC-视图解析器（View Resolverr）-XML视图解析器（Xml View Resolver）示例（转载实践）

以下内容翻译自:https://www.tutorialspoint.com/springmvc/springmvc_xmlviewresolver.htm 说明:示例基于Spring MVC 4.1 ...

【CMD】

1.dir 2. set (不带参数) 查看环境变量. SET [variable=[string]] variable 指定环境变量名. string 指定要指派给变量的一系列字符串. 3.

ASP.NET MVC 5 Web编程4 -- Razor视图引擎

Razor简介 Razor是ASP.NET新增的一个视图引擎,由微软全球最年轻的副总裁,有着"ASP.NET之父"称呼的Scott Guthrie主导的团队开发. 主导Razor开 ...

Chrome consider some ports unsafe ...

Just mark . 1: // tcpmux 7: // echo 9: // discard 11: // systat 13: // daytime 15: // ...

移动节点

function upOrDown(flag){ var $List = $(#id'); var $selectedList = $List.find('option:selected'); var ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.