jsoup获取网页属性

package com.open1111.jsoup;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Demo04 {

public static void main(String[] args) throws Exception{
CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例
HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例

CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求
HttpEntity entity=response.getEntity(); // 获取返回实体
String content=EntityUtils.toString(entity, "utf-8");
response.close(); // 关闭流和释放系统资源

Document doc=Jsoup.parse(content); // 解析网页得到文档对象

Elements linkElements=doc.select("#post_list .post_item .post_item_body h3 a"); //通过选择器查找所有博客链接DOM
for(Element e:linkElements){
System.out.println("博客标题："+e.text());
System.out.println("博客地址："+e.attr("href"));
System.out.println("target："+e.attr("target"));
}

Element linkElement=doc.select("#friend_link").first();
System.out.println("纯文本："+linkElement.text());
System.out.println("Html："+linkElement.html());
}
}

时间： 2024-10-07 06:08:42

jsoup获取网页属性的相关文章

Jython使用jsoup获取网页标题与链接信息

目的:获取网站链接,可以实现无人工干预的资料获取. 1 java实现的jsoup HTML解析库下载:http://jsoup.org/ 2 工作平台Ubuntu 3 使用Jython调用jsoup实现提取网页联接信息代码: #coding=utf-8 #doc from http://jsoup.org/apidocs/ from org.python.core import codecs codecs.setDefaultEncoding('utf-8') import sys #pri

【java】<Jsoup>获取网页中的图片

要做Android课程设计了,做一个爬漫画的东东练一下手 1 package asd; 2 3 import java.io.File; 4 import java.io.FileOutputStream; 5 import java.io.IOException; 6 import java.io.InputStream; 7 import java.io.OutputStream; 8 import java.net.URL; 9 import java.net.URLConnection;

C#用正则表达式获取网页源代码标签的属性或值

原文地址:http://blog.csdn.net/lhfly/article/details/7684319 整理两个在C#中,用正则表达式获取网页源代码标签的属性或值的方法 : 1.获取标签中的值: <a href="www.csdn.net" class="main" >CSDN</a> 结果:CSDN /// <summary> /// 获取字符中指定标签的值 /// </summary> /// <

[原创]利用爬虫技术获取网页数据，以及想要的指定数据

最近在公司做个系统,由于要获取网页的一些数据,以及一些网页的数据,所以就写的一个公用的HttpUtils.下面是针对乌云网我写的一个例子. 一.首先是获取指定路径下的网页内容. public static String httpGet(String urlStr, Map<String, String> params) throws Exception { StringBuilder sb = new StringBuilder(); if (null != params &&

在获取网页时半角全角字符混合的问题

在获取网页数据时,遇到一个问题.获取的数据在解析成中文时由于字符中包含半角和全角的字符,总是不能全部显示正确.一开始总想有什么解析方法可以用来处理这种数据.网页本身是utf-8格式,按理来说不应该有这个问题.后来发现是Dotnet中WebClient类默认会将中文转成gb2312.此时与原始的utf-8的数据相比,数据已有丢失,所以我判断再怎么恢复也不行(但不确定).那WebClient有该属性配置么?果然!将Encoding属性设为utf-8就从头上解决了这个问题.回想之前在用扫码仪获取二维码

JS获取网页中HTML元素的几种方法分析

getElementById getElementsByName getElementsByTagName 大概介绍 getElementById ,getElementsByName ,getElementsByTagName ###adv### 后两个是得到集合,byid只是得到单个对象 getElementById 的用法举个例子: <a id="link1" name="link1" href=http://homepage.yesky.com>

java 如何获取网页的动态内容，并解析网页内容

(笔记) 获取网页的动态内容参考 https://pastebin.com/raw/FePkm2kp Maven: <dependency> <groupId>htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>1.14</version></dependency> 实现: WebClie

C#获取网页中某个元素的位置，并模拟点击

我们在开发中,往往要得到网页中某个元素的位置,并且点击它.要模拟一次鼠标点击并不难,只要调用一个API就行了,关键就是怎么样得到这个元素的位置,还有判断是否要滚动滚动条,要滚动多少行能让元素显示出来.当然我们可以动态改变它的CSS,让它在特定的位置显示出来,但这个方法只对比较简单的网页有效. 那我们怎么才能得到网页的位置呢,首先我们来看一张图片从这里我们可以看到五个offset的属性,这里我们主要利用offsetparent, offsetleft 和offsettop,我们用offsetpa

【转】如何在Windows+VS2005使用最新静态libcurl 7.35.0获取网页数据，支持HTTPS

地址: http://blog.csdn.net/hujkay作者:Jekkay Hu([email protected])关键词:Windows,curl,ssl, visual c++ 2005, libcurl, https,网页抓取时间: 2014/2/18 1. 概述由于Curl提供强大的网络功能,支持HTTP,HTTPS, DICT, FILE, FTP, FTPS, Gopher, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, POP3, POP

猜你喜欢

2.3为方便旅客，某航空公司拟开发一个机票预定系统。写出问题定义并分析系统的可行性。

为方便旅客,某航空公司拟开发一个机票预定系统.旅行社把预定机票的旅客信息(姓名.性别.工作单位.身份证号码.旅行时间.旅行目的地等)输入进入该系统,系统为旅客安排航班,印出取票通知和账单,旅客在飞机 ...

ElasticSearch入门之花落红尘（三）

上篇文章散仙介绍了ElasticSearch的入门安装和使用,那么本篇我们来看下,如何使用java api来和ElasticSearch进行交互,简单点说,就是实现一个增删改查,来找找入门的感觉. 在 ...

jquery的Deferred 对象初体验

之前阅读了阮一峰老师的jQuery的deferred对象详解一文,结合jquery手册,算是对Deferred对象有了初步的认知.今天便来分享一下我自己的一些体会. 一.deferred可以方便的添加 ...

操作Wifi的工具类

有时候需要打开关闭wifi,或者是坚持状态什么的,这里我写了个工具类来完成各种操作,今后还会添加其他的功能.比如链接某个加密/不加密的wifi WifiAdmin.java package com.k ...

教主正能量镇楼

从事任何方向的技术研究,不知道该干什么的时候,先问自己四个问题: ?这个方向上最新进展是什么? 都知道吗? ?这个方向上最著名的专家有哪些?他们的研究都看过吗? ?这个方向上最著名的技术社区有哪些?精 ...

Spring：No bean named 'beanScope' is defined

初学Spring,“No bean named 'beanScope' is defined”这个问题困扰了我好几个小时,查资料无果后,重写好几遍代码后发现问题居然是配置文件不能放在包里...要放在s ...

[AngularJS] Provider

This lesson describes what is really happening when you use the angularfactory and how you can make ...

排序算法之冒泡法

package chap02_Basic_Algorithms; import static org.junit.Assert.*; import java.util.Arrays; import o ...

C语言初学习（3）

题目:计算字符串中的单词数.单词:由空格分开的连续字母数字串. 分析:这个就一目了然了,题目提示已经很清楚了,那就判断空格呗~简单是简单,所以我们不妨用指针来完成它! 不多说,一起来看代码~ 代码: ...

ArcGIS Server 基于Token安全验证

写在前面:只使用token并不能起到安全验证的作用,ArcGIS Server文件夹的权限是开放的,我们不需要登录Server平台即可访问服务,所以我们应该将Token验证和文件夹的安全性结合起来使用 ...

单尺度二维离散小波重构（逆变换）idwt2

clc,clear all,close all; load woman; %单尺度二维离散小波分解.分解小波函数haar [cA,cH,cV,cD]=dwt2(X,'haar'); %单尺度二维离散小 ...

Linux基础篇之一系统介绍

什么是Linux? Linux是一套免费的使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户.多任务.多线程和多CPU的操作系统.它能运行主要的UNIX工具软件.应用程序和网络 ...

Struts2笔记——2.Action的实现、配置

实现Action Struts2中,action负责对用户请求的处理,因此它是整个应用的控制器,也是整个应用的核心.而对开发者来说,他们需要提供大量的action类.相对于struts1而言,stru ...

Emacs 帮助系统

Emacs是一个可定制,可扩展,self-documenting(自己就可以提供文档)的编辑器,本文探讨如何使用Emacs的帮助系统. 打开帮助向导 c-h t 根据emacs启动时的语言环境,会自动 ...

微微校火爆电子科大

微微校火爆电子科大近日,在电子科技大学,有一款叫做微微校的微信公众服务平台十分火爆,尽管还在内测阶段,已有校园生活未来助手的雏形. 据了解,微微校的所有功能都为高校量身定制.作为专业的高校微信公众服 ...

[html] 学习笔记-CSS入门基本知识

1.CSS概述 CSS指层叠样式表 CSS样式表极大的提高了工作效率 1)CSS基础语法: selector{ propery:value } 例1:h1{color:red;font-size:14 ...

嵌入式OS入门笔记-以RTX为案例：八.RTX的进程间通讯（二）

嵌入式OS入门笔记-以RTX为案例:八.RTX的进程间通讯(二) RTX的进程间通讯主要依赖于四种机制,分别是事件(Event),互斥锁(Mutex),旗语或信号量(Semaphore),和邮箱(Ma ...

Linux 删除文件后空间不释放磁盘空间

在Linux操作系统下,有个没用的文件占用了400G,于是删除掉. [[email protected] log]# rm -rf messages [[email protected] log]# ...

理解Java的GC日志

分析如下GC日志:[GC [PSYoungGen: 9216K->1024K(9216K)] 1246196K->1246220K(1287040K), 0.2398360 secs] [ ...

final用法

1.修饰类如果一个类被定义为final类型,那么该类无法被其他类继承,该类中的所有方法都是final类型的,字段是否是final类型取决于字段自身的定义. 2.修饰方法一个方法被定义为final类 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.