Java使用HttpClient的HttpGet获取网页内容

项目添加HttpClient jar包引用，下载地址：http://hc.apache.org/downloads.cgi

引用：

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;

获取网页内容代码：

HttpClient httpclient = new DefaultHttpClient();
        HttpGet httpget = new HttpGet(request.getParameter("requestUrl"));
        HttpResponse res = httpclient.execute(httpget);
        HttpEntity entity = res.getEntity();
        //response.setCharacterEncoding("utf-8");
        //response.setContentType("application/json");
        OutputStream out = response.getOutputStream();

        if (entity != null) {

            InputStream instream = entity.getContent();
            int len;
            byte[] tmp = new byte[2048];
            while ((len = instream.read(tmp)) != -1) {
                out.write(tmp, 0, len);
            }
        }else{
            out.write(new byte[]{ ‘{‘,‘}‘ });
        }

时间： 2024-12-14 07:49:55

Java使用HttpClient的HttpGet获取网页内容的相关文章

基于apache —HttpClient的小爬虫获取网页内容

今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 HttpClient,根据前辈们发的教程自己也简单写了一下,感觉还好. 下面实现的是单个页面的获取: import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.clien

java获取网页内容保存到文件

package com.mkyong; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.U

Java通过httpclient获取cookie模拟登录

package Step1; import org.apache.commons.httpclient.Cookie; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.NameValuePair; import org.apache.commons.httpclient.cookie.CookiePolicy; import org.apache.commons.httpc

[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图

第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果: 从程序来讲,步骤分为三步: 1.发起一个http请求,获取返回的response内容: 2.解析内容,分离出有效图片的url: 3.根据这些图片的url,生成图片保存至本地. 开始详细说明: 准备工作:HttpClient的Jar包,访问http://hc.apache.org/ 自行下

Java:使用HttpClient进行POST和GET请求以及文件下载

1.HttpClient 大家可以先看一下HttpClient的介绍,这篇博文写的还算不错:http://blog.csdn.net/wangpeng047/article/details/19624529 当然,详细的文档,你可以去官方网站查看和下载:http://hc.apache.org/httpclient-3.x/ 2.本博客简单介绍一下POST和GET以及文件下载的应用. 代码如下: package net.mobctrl; import java.io.ByteArrayOutpu

使用Jsoup获取网页内容超时设置

使用Jsoup获取网页内容超时设置最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用.在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容. 原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒. 原来Jsoup是可以设置超时的,修改成如下就可以了: Jsoup.connect(url).timeout(30000).get();

Java中httpClient中三种超时设置

本文章给大家介绍一下关于Java中httpClient中的三种超时设置小结在Apache的HttpClient包中,有三个设置超时的地方: /* 从连接池中取连接的超时时间*/ ConnManagerParams.setTimeout(params, 1000); /*连接超时*/ HttpConnectionParams.setConnectionTimeout(params, 2000); /*请求超时*/ HttpConnectionParams.setSoTimeout(params,

java扒取网页，获取所需要内容列表展示

1.扒取原网页内容: 2.本地展示效果 3.代码 3 @ResponseBody 4 public Map<String, Object> findGuoWuYaoWen(HttpServletRequest request, ModelMap model, String area,String city) { 5 Map<String, Object> map = new HashMap<String, Object>(); 6 Map<String, Obje

【java】java反射机制，动态获取对象的属性和对应的参数值，并属性按照字典序排序，Field.setAccessible()方法的说明【可用于微信支付签名生成】

方法1:通过get()方法获取属性值 package com.sxd.test.controller; public class FirstCa{ private Integer num; private String name; private Boolean flag; public Integer getNum() { return num; } public void setNum(Integer num) { this.num = num; } public String getNam