抓取中国银行汇率

1.使用htmlparser.jericho方法来实现

2.通过列和行来定位表格元素。获取表格元素 

3.可以获取所有的表格。

4.使用的jar包:jericho-html-3.1

 1 import java.net.URL;
 2 import net.htmlparser.jericho.Element;
 3 import net.htmlparser.jericho.Source;
 4 protected void getRate() {
 5         double USD_CNY_RATE = 0;  //从中国银行获取USD→CNY的汇率
 6         double CNY_USD_RATE = 0;  //转换为CNY→USD的汇率
 7         int index = 0;
 8         Source source = null;
 9         try {
10             source = new Source(new URL(
11                     "http://www.boc.cn/sourcedb/whpj/enindex.html"));
12         } catch (IOException e) {
13             e.printStackTrace();
14         }
15         List<Element> elementList = source.getAllElements("table").get(4)
16                 .getAllElements("tr").get(3).getAllElements("td");
17
18         for (Element element : elementList) {
19             index++;
20             if (element.getContent().toString().equals("USD")) {
21                 USD_CNY_RATE = Double.parseDouble(elementList.get(index + 4)
22                         .getContent().toString().trim());
23             }
24         }
25
26         CNY_USD_RATE=Math.round(((USD_CNY_RATE/100))*10000)/10000.0000; //保留小数点后4位
27         bacCurrencyRateService.updateRate(CNY_USD_RATE,"USD","CNY");
28
29     }
时间: 2024-11-05 14:55:05

抓取中国银行汇率的相关文章

抓取网页信息

winform的form.cs 1 using HtmlAgilityPack; 2 using System; 3 using System.Windows.Forms; 4 using Hqew.DMSFrame.Entity.ExpressionClips; 5 using System.Collections.Generic; 6 using Hqew.DMSFrame.Exception; 7 using System.Threading; 8 9 namespace PageGath

shell命令curl抓取网页内容-下载xls文件

通过curl命令抓取网页内容,关键点如下: 1.curl要模拟浏览器,最好是有个代理,因为很多站点都会搞个反爬虫什么的. 2.我的需求很简单,就是在国家外汇管理局上下载各种货币对美元的汇率. http://www.safe.gov.cn/wps/portal/sy/tjsj_dmzsl 3.主要命令:curl,grep,awk,xls2txt,msql(LOAD DATA ). curl:提取url xls2txt:shell下的xls操作命令 xls2txt-0.14.tar.gz 下载地址:

一个实用的C#网页抓取类代码分享

一个实用的C# 网页抓取类 模拟蜘蛛,类中定义了超多的C#采集文章.网页抓取文章的基础技巧,下面分享代码: using System; using System.Data; using System.Configuration; using System.Net; using System.IO; using System.Text; using System.Collections.Generic; using System.Text.RegularExpressions; using Sys

fiddler抓取手机端的数据流量包

1.首先下载安装fiddler 2.然后打开fiddler,进入到tools-->options-->connections 3.然后进入到https 4.设置完成后,查找本机ip 然后打开手机的wifi,进行代理设置,手动输入本机ip地址,端口号就是8888 5.最重要的一点就是要手机端安装证书,要不然就会报tunnel to 443,抓取不到https的数据包 6.安装证书步骤 手机浏览器输入:http://你挂代理的ip:8888/FiddlerRoot.cer,然后安装成功就能抓取ht

使用Wireshark mac下抓取分析iphone数据包 --IOS端

mac系统版本:mac 10.10 Yosemite xcode版本:6.3.1 在追踪bug或者分析借鉴其他公司的app通讯思路时,抓包这件事是非常有必要的.下面说说Wireshark怎么截获iphone的数据包. 安装wireshark wireshark是依赖x11的,所以首先确认安装了x11,mac自带,可以打开升级一下.前往-实用工具-x11,打开后点击菜单栏上的x11,检查更新 即可.中间提取包内容过程比较长,耐心等待. 下载Wireshark最新版,尽量去官网下载:https://

关于curl跳转抓取

今天在公司碰到了一个bug,就是以前一直用curl下载的MP3录音文件为空了,但是浏览器去get请求是有文件的,并且大小还不是0kb,但是我用curl下载下来就是0K,百思不得其解.终于功夫不负有心人,得到了方法,原来我一直要去第三方的接口拿到录音数据,但是今天的录音数据中地址跳转了,也就是第一次请求的地址返回的是302, 这是以前的代码 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); // curl_setopt($ch, CUR

ngrep环回接口数据抓取方法,使用-d lo参数

ngrep环回接口数据抓取方法,使用-d lo参数,注意顺序: ngrep -W byline -d lo port 80

[搬运自我的CSDN博客] python抓取javascript动态生成HTML内容的实践

<注:CSDN博客在美国访问特别卡,所以转移到cnblogs来发文章> 本实验在Ubuntu14.04上完成.使用的浏览器是火狐(Firefox 33.0),python版本是2.7.6. 大家都知道用urllib配合正则表达式抓取静态HTML的内容很方便,但是如果网页中有javascript动态生成的内容,urllib就无能为力了. 此时我们要借助一个额外的工具:selenium.它的工作原理是操纵(火狐)浏览器浏览目标网页,等待网页中的javascript全部执行完毕后再对HTML源码进行

用Python多线程抓取并验证代理

因为工作的关系,我写过许多个抓取网站信息的程序. 最简单的,只要用Python的urllib2.urlopen()函数就可以了: 然后,有个网站喜欢封人,所以,得找一批代理,轮流抓它的信息: 有的网站不允许程序抓取,所以,就得加入一些头信息: 有的网站需要登录,这时就要用到Cookies: 最后,为了提高效率,最好是使用多线程.(PS,有个地方要注意,urlopen这个函数,设定了一个全局对象opener,所以如果你使用了多个线程, 每个线程使用一个代理,那么,不能使用urlopen这个函数,而