通过rcurl抓取网页数据

获取数据有多种方式，例如从txt、excel、curl、数据库等，我比较喜欢curl和数据库，先介绍下rcurl

一下载rcurl包
http://cran.r-project.org/web/packages/RCurl/index.html

二安装

?

1	`sudo R CMD INSTALL RCurl_1.95-4.1.tgz`

　　

三试运行

出错，发现缺少另外一个包，bitops

四安装bitops

http://cran.r-project.org/web/packages/bitops/index.html

运行

sudo R CMD INSTALL bitops_1.0-6.tgz

五安装XML包
从网上看到的实例都需要这个包，怎么办？安吧

下载地址：http://cran.r-project.org/web/packages/XML/index.html

命令行输入：

sudo R CMD INSTALL XML_3.98-1.1.tgz

傻了，命名可以直接在R下输入install命令的

六
安装了RJSONIO包
使用R内置的install命令安装失败，继续老办法安装后，成功

七实例
获取豆瓣里冰雪奇缘影片的评分，代码如下：

?

1

2

3

4

5

6

7

8

9

10

11

12

library(RCurl)

library(XML)

library(RJSONIO)

movieScoreapi <- function(x) {

api <- "https://api.douban.com/v2/movie/search?q={"

url <- paste(api, x, "}", sep = "")

res <- getURL(url)

reslist <- fromJSON(res)

name <- reslist$subjects[[1]]$title

score <- reslist$subjects[[1]]$rating$average

return(list(name = name, score = score)) }

movieScoreapi(‘冰雪奇缘’)

　　

运行成功

时间： 2024-10-11 17:56:53

通过rcurl抓取网页数据的相关文章

Asp.net 使用正则和网络编程抓取网页数据(有用)

Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </summary> /// <param name="strUrl">採集地址</param> /// <param name="Begin">開始字符</param> /// <param name="End">结束字符</param&g

java抓取网页数据，登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

Asp.net 使用正则和网络编程抓取网页数据(实用)

Asp.net 使用正则和网络编程抓取网页数据(实用) /// <summary> /// 抓取网页相应内容 /// </summary> /// <param name="strUrl">采集地址</param> /// <param name="Begin">开始字符</param> /// <param name="End">结束字符</param&g

【iOS】正则表达式抓取网页数据制作小词典

应用程序不一定要自己去提供数据,有现成的数据学会去用才好. 网络很大,各种搜索引擎每天到处爬.本文通过正则表达式抓取网站的数据来做一个小词典. 一.正则表达式的使用 1. 确定匹配方案,即pattern 2. 用pattern实例化NSRegularExpression 3. 用匹配方法开始匹配. 匹配一次:可以使用firstMatch方法匹配多次:可以用matchs方法正则表达式对照表:(在网上找到了一个很不错的表,正则表达式各个语言通用) http://www.jb51.net/shou

scrapy递归抓取网页数据

scrapy spider的parse方法可以返回两种值:BaseItem,或者Request.通过Request可以实现递归抓取. 如果要抓取的数据在当前页,可以直接解析返回item(代码中带**注释的行直接改为yield item): 如果要抓取的数据在当前页指向的页面,则返回Request并指定parse_item作为callback: 如果要抓取的数据当前页有一部分,指向的页面有一部分(比如博客或论坛,当前页有标题.摘要和url,详情页面有完整内容)这种情况需要用Request的meta

使用HtmlAgilityPack批量抓取网页数据

[转]使用HtmlAgilityPack批量抓取网页数据相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息. 抓取网页 HtmlAgilityPack.HtmlDocument htmlDoc; if (!string.IsNullOrEmpty(登录URL)) { htmlDoc = htmlWeb.Load(登录URL, 提交的用户验证信息,

【.NET】使用HtmlAgilityPack抓取网页数据

原文:[.NET]使用HtmlAgilityPack抓取网页数据刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨,在codeplex里有一个开源项目HtmlAgilityPack,提供了用XPath解析HTML文件,下面掩饰如何使用该类库的使用首先说下XPath路径表达式 XPath路径表达式用来选取XML文档中的节点或节点集的 1.术语:

抓取网页数据

项目说明:[抓取网页数据] 项目介绍:采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中项目步骤:1.创建匹配模式表2.请求网页连接3.过滤文本,并对数据去重处理4.显示结果效果展示: 完整代码: import console; /* 项目说明:[抓取网页数据] 项目介绍: 采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中项目步骤: 1.创建匹配模式表 2.请求网页连接 3.过滤文本,并对数据去重处理 4.显示结果 */ //参考来源:http://bbs.a

web scraper 抓取网页数据的几个常见问题

如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web scraper 抓取数据,很有可能碰到如下问题中的一个或者多个,而这些问题可能直接将你计划打乱,甚至让你放弃 web scraper . 下面列出几种你可能会碰到的问题,并说明解决方案. 1.有时候我们想选择某个链接,但是鼠标点击就出触发页面跳转,如何处理? 在我们选择页面元素的时候,勾选 "Enab

猜你喜欢

字符串问题经典问题

一.字符串循环移位问题: 给定一个字符串S[0...N-1],要求把S的前k个字符移动到S的尾部,如把字符串“abcdef”向左移动2位得到“cdefab”. 循环左移n+k位和k位的结果是一样的: ...

安装concrete时提示“...database does not support InnoDB database tables..."如何解决

安装很多系统时,经常有有提示: "...database does not support InnoDB database tables..." 解决办法: 找到MySQL的配置文 ...

软件工程概论-7面向对象分析

面向对象的分析模型由三个独立的模型组成:(1)功能模型:由用例和场景表示.(2)分析对象模型:由类图和对象图表示.(3)动态模型:由状态图和顺序图表示.在分析对象模型中,分析类是概念层次上的内容,用于 ...

bzoj2301: [HAOI2011]Problem b懵逼乌斯反演

属于结果的和好求但是结果不好求的题 (轻易能得到以k的倍数为最大公约数的对数,但是不好直接求k) 所以一波反演结束其实反演的时候完全没有反演的感觉,就是不停地恒等变形算是懵逼乌斯反演最简单的例题 ...

JavaScript window.location物

演示样例注意方法常常使用window.location.它的结构总是记不住.简单梳理下.方便以后查询. 演示样例 URL:http://b.a.com:88/index.php? name=ka ...

最近讨论到net.ipv4.tcp_timestamps这个系统配置是否能够开启,RFC文档上说道该值必须为单调递增,否则接受到的包可能会被丢掉于是查看下tcp协议栈中是根据什么来生成这个times ...

Hadoop 2.x 之 HA 简介

HA结构图 HA是用来解决单点故障问题 DN: DataNode,启动时会往所有的NameNode汇报 NN: NameNode(主 Active(一个) 备 Standby(可以有多个)) Jo ...

Django user authenticate 登录验证

Django视图函数 view视图函数 from django.shortcuts import render,redirect from django.contrib.auth import aut ...

HTTPS基本原理

HTTPS基本原理 Xcode7上,默认采用的传输协议就是HTTPS,大家都知道HTTPS = HTTP + SSL,利用HTTPS协议传输的数据是加密的,更加安全.在此对概念性知识不再介绍.直接介绍 ...

xcode编译出错：Undefined symbols for architecture armv7

在xcode中编译oc和c++代码时出现如下错误: Undefined symbols for architecture armv7 "std::basic_ostream<char, ...

移动安全 - CVE漏洞复现虚拟团队呼唤小伙伴

召唤对Linux Kernel和GNU开源项目CVE漏洞研究感兴趣的小伙伴,主要的工作是共同研究CVE漏洞的复现步骤.触发原理.补丁合理性探究等工作.... 我们可以成立一个虚拟团队,大家的方向主要集 ...

MySQL 5.5: InnoDB Change Buffering

To speed up bulk loading of data, InnoDB implements an insert buffer, a special index in the InnoDB ...

（考研）散列表和hashcode和hashmap

package tt; import java.util.HashMap; import java.util.Map; public class a0 { public static void mai ...

微信小程序特殊效果合集第一期

一期一期的整,假如以下内容中,有已经无法使用的部分,欢迎指出:假如你有你觉得可以加入特殊效果范围的文章或帖子,或是你有自己制作的特殊效果,欢迎回复分享:文字跑马灯效果:http://www.wxapp ...

linux 处理键盘鼠标事件

Linux下鼠标和键盘的模拟控制,也就是为手势和语音控制鼠标和键盘部分服务的. 有关于本系统构建的文章结构都会由三个部分来组织,一是该功能模块的介绍和在Linux下简单应用程序的实现:二是将该功能模块 ...

提高批量插入数据的方法

1.insert into demo(`a`,`b`,`c`)values('111','222','333'),('444','555','6666'),('777','888','9999'),. ...

nginx添加sticky模块-cookie保持会话

cookie不同于session,一个存于客户端,一个存于服务端. 环境nginx 1.8.0 centos6.X sticky:1.2.5 wget https://bitbucket.org/n ...

swift--调用系统单例实现打电话

//自动打开拨号页面并自动拨打电话 var phone="15974462468"; UIApplication.sharedApplication().openURL(NSURL ...

第五章对象数据库管理器（ODM）

一.ODM概述 AIX系统用一种特殊的方法来管理和维护系统的配置信息.设备信息和关键产品信息.所有这些信息都保存在/etc/objrepos,/usr/lib/objrepos和/usr/share/ ...

Cacti监控Redis实现过程

Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具.被广泛的用于对服务器的运维监控中,Cacti提供了一种插件式的管理,只要按要求写好特定的模板,那么你就可 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.