Jsoup解析和遍历一个HTML文档(二)

关于Eclipse编辑器汇总console中字体调整:

1,下载jsoup的jar包:http://jsoup.org/download

2, jsoup英文的开发手册:http://jsoup.org/cookbook/

3,jsoup的jsoup cookbook中文版:http://www.open-open.com/jsoup/

-                      - -                      - -                      - -                      - -                      - -                      - -                -                      -

-                      - -                      - -                      - -                      - -                      - -                      - -                -                      -

小实例:

 1 package cn.cast.test;
 2
 3
 4
 5 import org.jsoup.Jsoup;
 6 import org.jsoup.nodes.Document;
 7 import org.jsoup.nodes.Element;
 8 import org.jsoup.select.Elements;
 9
10
11 import java.io.IOException;
12
13 import org.jsoup.Jsoup;
14 import org.jsoup.Jsoup;
15 import org.jsoup.nodes.Document;
16 import org.jsoup.nodes.Element;
17 import org.jsoup.select.Elements;
18
19
20 public class test_1 {
21
22     public static void main(String[] args) {
23         // TODO Auto-generated method stub
24         getUrlAndTitle();
25         getTextMes();
26     }
27
28     public static void getUrlAndTitle()
29     {
30         String url="http://finance.sina.com.cn/";
31         try {
32             Document doc=Jsoup.connect(url).timeout(10000).get();//get all infomation from url website
33             //System.out.println(doc);
34             Elements ListDiv = doc.getElementsByAttributeValue("class","fin_tabs0_c0");
35             //System.out.println(ListDiv);
36             for (Element div :ListDiv) {
37                  Elements links = div.getElementsByTag("a");
38                 // System.out.println(links);
39                  for (Element link : links) {
40                      String linkHref = link.attr("href").trim();
41                      String linkText = link.text().trim();
42                      System.out.println(linkHref+"\t"+linkText);
43                  }
44              }
45         } catch (IOException e) {
46             // TODO Auto-generated catch block
47             e.printStackTrace();
48         }
49     }
50
51     public static void getTextMes()
52     {
53         String url="http://finance.sina.com.cn/hy/20140823/100220099682.shtml";
54         String textMes="";
55         try {
56             Document doc=Jsoup.connect(url).timeout(10000).get();
57             Elements ListDiv = doc.getElementsByAttributeValue("class","blkContainerSblkCon BSHARE_POP");
58             //System.out.println(ListDiv);
59             for(Element div:ListDiv)
60             {
61                 Elements textInfos=div.getElementsByTag("p");
62                 //System.out.println(textInfos);
63                 for(Element textInfo:textInfos)
64                 {
65                     String text=textInfo.text().trim();
66                     textMes=textMes+text+"\n";
67                 }
68             }
69             System.out.println(textMes);
70         } catch (IOException e) {
71             // TODO Auto-generated catch block
72             e.printStackTrace();
73         }
74     }
75 }

test_1

时间: 2024-11-07 10:36:45

Jsoup解析和遍历一个HTML文档(二)的相关文章

Jsoup入门-解析和遍历一个html文档

解析和遍历一个HTML文档 如何解析一个HTML文档: String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(ht

&lt;!--把一个xml文档(&quot;note.xml&quot;)载入到xml解析器中--&gt;

<!--把一个xml文档("note.xml")载入到xml解析器中--> <html> <head> <scropt type = "text/javascript"> funcion parseXML() { try { xmlDoc = new ActiveXObject("Microsoft.XMLDOM"); }catch(e) { try { xmlDoc = document.impl

C# 复制一个Word文档的部分或全部内容到另一个Word文档

C# 复制一个Word文档的部分或全部内容到另一个Word文档 我最近喜欢折腾Office软件相关的东西,想把很多Office软件提供的功能用.NET来实现,如果后期能把它用来开发一点我自己的小应用程序那就更好了. 扯远了,回到正题.复制文档内容这个功能太常见啦,在微软Word中实现这个功能很简单,只需要复制和粘贴就行了.这篇文章的主要目的是记录如何用C#来实现复制一个Word文档的部分或全部内容到另一个word文档,废话不多说,下面开始. 第一部分:复制部分内容: 在我的这个示例中,复制部分内

Photoshop脚本 &gt; 使用脚本创建一个新文档

源自:http://coolketang.com/tutorials/menu2lesson1.php 本节将演示如何使用脚本,创建一个空白文档.首先创建一个空白的脚本文档,并保存在硬盘上某个位置. 接着输入脚本代码: //定义一个变量[Width],表示新文档的宽度. var width = 560; //定义一个变量[height],表示新文档的高度. var height = 560; //定义一个变量[resolution],表示新文档的分辨率. var resolution = 72;

如何把Excel中的每一行都存储为一个TXT文档

当Excel中有多行数据时,恰巧我们也需要把每一行数据都存储成一个txt文档,那么我们要手工一个一个Ctrl+c-->Ctrl+v-->Ctrl+s吗?答案是肯定不行的哇,因为本人需要处理一个存储了6万多条数据的文档,为了珍爱生命,那么本人就利用office里的VBA来投机取巧了! 首先利用快捷键Alt+F11,打开Excel的VBA,输入如下代码: Private Sub CommandButton1_Click()     Application.ScreenUpdating = Fals

HTML学习【第一个HTML文档】

HTML的概念 1.HTML是用来描述网页的一种语言. 2.HTML是一种超文本标记语言(Hyper Text Markup Language). 3.HTML不是一种编程语言,而是一种标记语言(Markup Language). 4.HTML标记语言是一套标记标签(Markup Tag). 5.HTML用标记标签来描述网页. HTML标签 1.HTML标记标签通常被称为HTML标签. 2.HTML标签是由尖括号包围的关键字.例如:<html> 3.HTML标签通常是成对出现的,但在HTML5

Aspose.Words:如何添加另一个WORD文档中的Node对象

原文:Aspose.Words:如何添加另一个WORD文档中的Node对象 首先看一段代码,这段代码意图从docSource中获取第一个表格,并插入docTarget的末尾: 1 var table = (Table)docSource.GetChild(NodeType.Table, 0, true); 2 docTarget.FirstSection.Body.ChildNodes.Add(table); 这段代码会抛出异常:“The newChild was created from a

C# 复制PDF页面到另一个PDF文档

C# 复制PDF页面到另一个PDF文档 有时候我们可能有这样一个需求,那就是把PDF页面从一个PDF文档复制到另一个PDF文档中.由于PDF文档并不像word文档那样好编辑,因此复制也相对没有那么容易.写这篇文章主要是分享一个简单而且比较容易实现的方法 - 使用C#将一个PDF文档的页面,包括文字.图片和背景等复制到另一个PDF文档的指定位置. 下面是我准备的两个PDF文件: 目标:将左边的PDF文档的第一页复制到右边的PDF文档的第二页的位置. 代码实现: 步骤1:初始化一个PdfDocume

centos7的基础文档二

centos7基础文档二 一.centos7的服务控制 1. 服务脚本文件 systemctl对于Linux来说,就是一个init程序,可以作为sysVinit和Upstat的替代. centos7的服务脚本存放在:/usr/lib/systemd/,有系统(system)命令和用户(users)命令之分,像需要开机不登录的就能运行的服务存在系统的服务里,即:/usr/lib/systemd/system目录下,每一个服务以.server结尾.一般会分为三个部分:[unit][service][