Java HTML页面抓取实例

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;

public class Url {

    public static void main(String[] args) throws Exception{
        String html = getURLContent();
        System.out.println(html);
    }

    /**
     * 获取网页内容
     */
    private static String getURLContent() throws MalformedURLException, IOException, UnsupportedEncodingException {
        URL urlmy = new URL("http://www.baidu.com");

        HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();
        HttpURLConnection.setFollowRedirects(true);
        con.setInstanceFollowRedirects(false);
        con.connect();

        BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));

        String s = "";

        StringBuffer sb = new StringBuffer();

        while ((s = br.readLine()) != null) {
            sb.append(s+"\r\n");
        }

        return sb.toString();
    }

}

Java HTML页面抓取实例

时间: 2024-10-09 11:49:17

Java HTML页面抓取实例的相关文章

java 网页页面抓取标题和正文

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.reg

java网页数据抓取实例

网页上面数据如下: 如果想要过去上图所示网页的数据,代码如下: (1)调度类,主要调用工具类中的方法获取数据并入库 package com.jointsky.jointframe.weather.jobservice; import java.util.HashMap; import java.util.List; import java.util.Map; import org.apache.commons.lang.StringUtils; import org.springframewor

Java写的抓取任意网页中email地址的小程序

/* * 从网页中抓取邮箱地址 * 正则表达式:java.util.regex.Pattern * 1.定义好邮箱的正则表达式 * 2.对正则表达式预编译 * 3.对正则和网页中的邮箱格式进行匹配 * 4.找到匹配结果 * 5.通过网络程序,打通机器和互联网的一个网站的连接 */ import java.net.*; import java.util.regex.*; import java.io.*; public class EmailAddressFetch { public static

java中用jsoup抓取网页源码,并批量下载图片

一.导入jsoup的核心jar包jsoup-xxx.jar jar包下载地址:jsoup-1.8.2.jar 中文API地址:http://www.open-open.com/jsoup/parsing-a-document.htm 二.java中用jsoup抓取网页源码,并批量下载图片 package com.dgh.test; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; i

java使用urlConnection抓取部分数据乱码

使用urlconnection做抓取的同学应该一开始都是使用这个吧.OK回到正题来..... 在内容己有中文.英文己正常显示,仍然会有部分中文或英文出现乱码,这是为什么呢?这个问题一直在心里盘旋...真TM的蛋疼.... 网上己有解决方案了,,其实这个跟各位开始学习与使用java的资料有关. 网上大部分代码都是如下: byte[] by = new byte[20000]; StringBuffer strBuffer = new StringBuffer(); int len = 0; whi

教您使用java爬虫gecco抓取JD全部商品信息

gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定. JD网站的分析 要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页.那么我们通过找到所有分类就能逐个分类抓取商品信息. 入口地址 http://www.jd.com/allSort.aspx,这个地址是JD全部商品的分类列表,我们以该页面作为开始页面,抓取J

scrapy爬虫-1-初试页面抓取

本文目标从初建scrapy工程到抓取一个论坛页面,涉及问题: 1.F12页面调试 2.xpath 3.输出抓取数据 创建工程 scrapy [object Object]startproject [object Object]tutorial 代码简单仅需修改items.py,spiders/xianzhenyuan_spider.py  2个文件,先列出代码,后再写调试步骤. items.py # -*- coding: utf-8 -*- import scrapy from scrapy.

C# 页面抓取类

抓取网站页面的内容,简单的类应用,代码如下: /// <summary> /// 获取页面内容 /// </summary> /// <param name="url">Url链接</param> /// <returns></returns> public string WebHtmlCon(string url) { try { string htmlCon = ""; WebRequest

java做web抓取

就像许多现代科技一样,从网站提取信息这一功能也有多个框架可以选择.最流行的有JSoup.HTMLUnit和Selenium WebDriver.我们这篇文章讨论JSoup.JSoup是个开源项目,提供强大的数据提取API.可以用它来解析给定URL.文件或字符串中的HTML.它还能操纵HTML元素和属性. <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>or