java 根据 url 读取网页内容 遇到403问题

		URL url = new URL("****************");
		StringBuffer html = new StringBuffer();
		HttpURLConnection conn = (HttpURLConnection) url.openConnection();
		conn.setRequestProperty("User-Agent", "Mozilla/31.0 (compatible; MSIE 10.0; Windows NT; DigExt)");
		InputStreamReader isr = new InputStreamReader(conn.getInputStream(),"utf-8");

设一下请求属性就行了:

conn.setRequestProperty("User-Agent", "Mozilla/31.0 (compatible; MSIE 10.0; Windows NT; DigExt)");
时间: 2024-10-08 01:13:42

java 根据 url 读取网页内容 遇到403问题的相关文章

使用URL读取网页内容

import java.net.*; import java.io.*; public class URLDemo { public static void main(String[] args) { try { //利用Java.net中的URL类来获取资源 URL url=new URL("https://www.baidu.com"); URLConnection urlConnection=url.openConnection(); HttpURLConnection conn

Java URL对象初始化以及通过URL读取内容

一.URL层次. URL对象的创建. 1.public URL(String spec); URL urlbase=new URL("http://my.oschina.net/u/2308739/admin/new-blog.html"); 2.public URL(URL context,String spec); URL urlbase=new URL("http://my.oschina.net/u/2308739/admin/"); URL indexUr

Java 使用URL从网络读取图片

import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; public class DownLoadImageNetwork { public static void main(String[] args) { try { URL url = new URL("http://www.baidu.com/img/logo_gif_be7507c6c68

java读取网页内容

package com.linxinxin.tools; import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL; public class Cra

java.net.Url类的应用(网络编程)

一.认识URL 类 URL 代表一个统一资源定位符,它是指向互联网"资源"的指针.资源可以是简单的文件或目录,也可以是更为复杂的对象的引用,例如对数据库或搜索引擎的查询. 简单的可以把URL理解为包含:协议.主机名.端口.路径.查询字符串和参数等对象.每一段可以独立设置. 应用程序也可以指定一个"相对 URL",它只包含到达相对于另一个 URL 的资源的足够信息.HTML 页面中经常使用相对 URL. 相对 URL 不需要指定 URL 的所有组成部分.如果缺少协议.

java爬虫爬取网页内容前,对网页内容的编码格式进行判断的方式

近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从header标签中获取Content-Type=#Charset:二.从meta标签中获取Content-Type=#Charset:三.根据页面内容分析编码格式. 其中一/二方式并不能准确指示该页面的具体编码方式,周全考虑,加入第三种方式. 第三种方式引入开源jar包info.monitorenter.cp

读取网页内容不在出现乱码

有没有发现每次读取网页内容时,都要去找网页的编码类型,这次研究出来一个公共的方法,下次读取网页内容时 再不会出现乱码了. package package org.httpclient; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; import o

JAVA下载URL所对应的资源文件

通过代码下载"http://www.baidu.com/img/bd_logo1.png"对应的图片文件 package guwen; import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.HttpURLConnec

Java依据Url下载图片

package com.ronniewang.downloadpicture; import java.io.DataInputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; import java.sql.ResultSet; import ja