Jsoup笔记

简介

Jsoup,java开源框架,用于解析html dom树

相关笔记

a.简单例子

Document doc=Jsoup.connect(url).header("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2").get();

  

获取到document后,其他的就跟xml解析一样,很简单,上手快

getElementsByClass方法包含空格时候无法获取到class节点

public Elements getElementsByClass(String className);

没深入源码,不清楚怎么解析的,可以用doc.getElementsByAttributeValue("class‘,"tag1 tag2");这样的方式来获取

时间: 2024-10-29 21:21:58

Jsoup笔记的相关文章

Jsoup学习笔记10:Saz2Csv解析器

经过了一系列的学习和摸索,Jsoup学习笔记即将告一段落,第11篇学习笔记将会把本篇实现的功能界面化,并做成一个可直接执行的exe文件.后续的项目如果需要更深入的学习Jsoup,还会继续更新. 本篇笔记主要是对前面的9篇笔记进行整合,初步实现saz格式文件到csv文件转换的基本功能,程序要实现的基本功能主要是: 1.saz文件遍历:获取Java工程所在目录的上层目录中,指定扩展名(.saz)的文件, 2.遍历获得的上层目录,复制包含指定文件(.saz)的所有文件夹,并在创建的同名文件夹中创建同名

Jsoup学习笔记9:Jsoup 解析saz文件,读取其中的htm文件到字符串,提取字符串中的数据写入csv文件中

本篇笔记将上篇笔记的操作做些改进,不再把saz文件中的htm文件解析出来,而是不解压直接读取其中的数据成字符串,基本思路如下: 1.自定义一个从文本文件读取内容到字符串的类:解析saz文件中的htm文档,将文件的内容读取到字符串中 2.自定义利用Jsoup解析htm字符串的类:利用Jsoup解析传入的htm字符串,将解析结果写入csv文件中 3.解析时,指定好文件路径,直接调用上面的两个工具类即可 示例代码如下: package com.daxiang.saztest; /** * 自定义一个从

Java编写网络爬虫笔记(第三部分:Jsoup的强大)

基于httpclient下载的页面,接着就是应该提取url了,最开始我用的是htmlpraser,过几天后,我就发现了还有jsoup这个包,非常的好用,接着我就直接用jsoup来抓取页面和提取出里面的url了,在这里跟大家分享一下代码. import java.io.IOException; import java.util.HashSet; import java.util.Iterator; import java.util.Set; import org.jsoup.Jsoup; impo

Java之Jsoup库:网络爬虫的基本使用

下面以http://news.csdn.net/news.html为爬虫示例网站进行分析,F12查看网页布局,效果如下: 从图中分析知,待扒的单个数据以unit为标签,即一个unit标签对应一个对象. 下面定义Jsoup帮助类,getRootElements()返回需要解析的对象的根标签,这里需要返回document.getElementsByClass("unit"). anaylizeRootElement(Element rootElemen)方法中将指定的rootElemen解

项目开发笔记-传单下发 名片替换 文件复制上传/html静态内容替换/json解析/html解析

//////////////////////////// 注意: 此博客是个人工作笔记 非独立demo////////////////////////////////// ....................................................................................................................................................................

Jsoup解析html页面实现CSDN博客客户端

这段时间课比较少,我用Jsoup解析html写了一个阅读CSDN博客的app. 已经实现的功能有: 1.阅读博客频道首页最新|最热的文章: 2.浏览所有专栏&阅读其中的文章: 3.阅读热门文章: 4.查看指定id用户的所有文章: 整个程序运行起来的样子大概就是这个样子.. 核心代码:下载指定的html页面 --> 使用Jsoup解析,获取自己需要的元素.了解Jsoup的同学都知道很简单的. 由于时间&水平有限,app界面很简陋,可能会有些BUG. 而且有一个问题没有解决:解析时怎么识

【转】Android开发笔记(序)写在前面的目录

原文:http://blog.csdn.net/aqi00/article/details/50012511 知识点分类 一方面写写自己走过的弯路掉进去的坑,避免以后再犯:另一方面希望通过分享自己的经验教训,与网友互相切磋,从而去芜存菁进一步提升自己的水平.因此博主就想,入门的东西咱就不写了,人不能老停留在入门上:其次是想拾缺补漏,写写虽然小众却又用得着的东西:另外就是想以实用为主,不求大而全,但求小而精:还有就是有的知识点是java的,只是Android开发也会经常遇上,所以蛮记下来.个人的经

【安全牛学习笔记】

弱点扫描 ╋━━━━━━━━━━━━━━━━━━━━╋ ┃发现弱点                                ┃ ┃发现漏洞                                ┃ ┃  基于端口五福扫描结果版本信息(速度慢)┃ ┃  搜索已公开的漏洞数据库(数量大)      ┃ ┃  使用弱点扫描器实现漏洞管理            ┃ ╋━━━━━━━━━━━━━━━━━━━━╋ [email protected]:~# searchsploit Usage:

51CTO持续更新《通哥的运维笔记》

<通哥的运维笔记>将持续在51CTO网站更新,希望大家多多关注.互相学习,后期,我将会退出<通哥的运维笔记>系列视频教程,希望带给大家最大的收获,帮助大家更好的学习.进步.<通哥的运维笔记>主要从linux系统管理.虚拟化.cloudstack云平台以及网络管理之CCNA.CCNP.CCIE,等等方面深入讲解.