JAVA平台上的网络爬虫脚本语言 CrawlScript

网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一 个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的代码,就可以制作一个强大的网络爬虫。同 时,CrawlScript由JAVA编写,可以在其他JAVA程序中被简单调用。

CrawlScript是一种具有爬虫功能的javascript

CrawlScript是在ECMA标准的基础上设计的语言,是一种javascript,在语法上和网页开发中使用的javascript完 全相同,但是并不支持网页开发中所特有的函数和对象,如document、alert()在CrawlScript中会失效。CrawlScript有自 己的一套特有的函数和对象,详细请看CrawlScript API

CrawlScript / CrawlScript

Watch12 Fork10

CrawlScript 基于JAVA的网络爬虫脚本语言,可以直接使用或用JAVA二次开发。 — More...

http://crawlscript.github.io/

master分支代码最近更新:2014-04-04

下载zip

时间: 2024-12-09 22:16:11

JAVA平台上的网络爬虫脚本语言 CrawlScript的相关文章

Java SE 6 新特性: 对脚本语言的支持

2006 年底,Sun 公司发布了 Java Standard Edition 6(Java SE 6)的最终正式版,代号 Mustang(野马).跟 Tiger(Java SE 5)相比,Mustang 在性能方面有了不错的提升.与 Tiger 在 API 库方面的大幅度加强相比,虽然 Mustang 在 API 库方面的新特性显得不太多,但是也提供了许多实用和方便的功能:在脚本,WebService,XML,编译器 API,数据库,JMX,网络 和 Instrumentation 方面都有不

如何在Java平台上使用脚本语言做Java开发

如何在Java平台上使用脚本语言做Java开发     最近开始流行区分Java平台和Java语言,但很多Java开发者还是不能确定如何在 Java应用程序开发中结合脚本.本篇文章,Gregor Roth给出了在Java平台上使用脚本的方法.通过这篇文章,你可以了解怎样在你的Java应用程序中使用脚本,是否你要通过使用Groovy和 Jython把不同的Java应用程序模块粘合在一起,或者写一个你自己的基于JRuby的应用程序,适用于Java平台. 作为一个Java开发者,你可能已经注意到了,J

JMS(Java平台上的专业技术规范)

编辑 jms即Java消息服务(Java Message Service)应用程序接口是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送消息,进行异步通信.Java消息服务是一个与具体平台无关的API,绝大多数MOM提供商都对JMS提供支持.jms同时也可以指Journal of Marketing Science,<营销科学学报>的简称.此外,佳木斯的拼音缩写也是jms. 目录 1Java平台上的专业技术规范 2简介 3历史 4体系架构 5对

Java执行上传的sql脚本文件

开始通过java执行cmd的方式调用sqlplus执行sql文件,但是后来发现一旦进入sqlplus,脚本执行完后就会一直等待而不关闭.后为了方便改成调用ant的SQLExec类提供的实现进行sql脚本的执行.原始代码如下,我是通过前端上传sql脚本文件后台服务端进行执行:     SQLExec sqlExec = new SQLExec();     //设置数据库参数     sqlExec.setDriver("oracle.jdbc.driver.OracleDriver")

【转】44款Java 网络爬虫开源软件

原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的网页抓取组件 使用...更多WebFetch信息 开源爬虫框架 Guozhong

龙芯GO!龙芯平台上构建Go语言环境指南

龙芯软件生态系列——龙芯GO!龙芯平台上构建Go语言环境指南2016-07-05 龙芯中科1初识Go语言Go语言是Google公司于2009年正式推出的一款开源的编程语言,是由Robert Griesemer.KenThompson和Rob Pike等世界顶尖计算科学家精心打造的系统编程语言.Go语言最显著的特点是编码简洁迅速.支持高效并发和自动内存管理等.此外,Go语言还面向网络服务器.存储系统和数据库等领域的编程进行了优化设计,并且简化了应用系统的安装和部署.因此,Go语言受到了广大程序员的

基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)

原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平台. 目录 网络爬虫框架 网络爬虫的逻辑顺序 网络爬虫实例教学 model main util parse db 再看main方法 爬虫效果展示 网络爬虫框架 写网络爬虫,一个要有一个逻辑顺序.本文主要讲解我自己经常使用的一个顺序,并且本人经常使用这个框架来写一些简单的爬虫,复杂的爬虫,也是在这个基

学 Java 网络爬虫,需要哪些基础知识?

说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬虫而且还能做的非常好,在开源社区中有不少优秀的 Java 网络爬虫框架,例如 webmagic .我的第一份正式工作就是使用 webmagic 编写数据采集程序,当时参与了一个舆情分析系统的开发,这里面涉及到了大量网站的新闻采集,我们就使用了 webmagic 进行采集程序的编写,由于当时不知道其设

Java实现网络爬虫

昨晚用自己写的网络爬虫程序从某网站了下载了三万多张图片,很是爽快,今天跟大家分享几点内容. 一.内容摘要 1:Java也可以实现网络爬虫 2:Jsoup.jar包的简单使用 3:可以爬某网站的图片,动图以及压缩包 4:可以考虑用多线程加快下载速度 二.准备工作 1:安装Java JDK 2:下载Jsoup.jar 3:安装Eclipse或其他编程环境 4:新建一个Java项目,导入Jsoup.jar 三.步骤 1:用Java.net包联上某个网址获得网页源代码 2:用Jsoup包解析和迭代源代码