java抓取网页源码

import java.io.*;
import java.net.*; 

public class test
{
public static void main(String args[])
{ 

//判断参数是否为两个,正确的用法为 FirstSocket 网站页面
    if(args.length!=2)
    {
     System.out.println("Usage : FirstSocket host page\r\nExample:FirstSocket www.google.com");
    System.exit(0);
    }
   //示例:http://www.circul.org/index.php
    String strServer=args[0]; //取得第一个参数 www.circul.org
    String strPage = args[1]; //取得第二个参数 要浏览的页面 /index.php

try
{
    String hostname = strServer;
    int port = 80;
    InetAddress addr = InetAddress.getByName(hostname);
   // System.out.println("myvar "+addr+"\r\n");
    Socket socket = new Socket(addr, port); //建立一个Socket 

    //发送命令
    BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(socket.getOutputStream(), "UTF8"));
    wr.write("GET " + strPage + " HTTP/1.0\r\n");
    //System.out.println("POST " + strPage + " HTTP/1.0\r\n");
    wr.write("HOST:" + strServer + "\r\n");
    //System.out.println("HOST:" + strServer + "\r\n");
    wr.write("\r\n");
    wr.flush(); 

    //接收返回的结果
    BufferedReader rd = new BufferedReader(new InputStreamReader

    (socket.getInputStream()));
    String line;
    while ((line = rd.readLine()) != null) {
    System.out.println(line);
    }
    wr.close();
    rd.close();
}
catch (Exception e)
{
    System.out.println(e.toString());
}
}
}
时间: 2024-10-14 23:17:59

java抓取网页源码的相关文章

java中用jsoup抓取网页源码,并批量下载图片

一.导入jsoup的核心jar包jsoup-xxx.jar jar包下载地址:jsoup-1.8.2.jar 中文API地址:http://www.open-open.com/jsoup/parsing-a-document.htm 二.java中用jsoup抓取网页源码,并批量下载图片 package com.dgh.test; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; i

[转]Linux Socket编程 Socket抓取网页源码

“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览网页时,浏览器的进程怎么与web 服务器通信的?当你用QQ聊天时,QQ进程怎么与服务器或你好友所在的QQ进程通信?这些都得靠socket?那什么是socket?socket的类型 有哪些?还有socket的基本函数,这些都是本文想介绍的.本文的主要内容如下: 1.网络中进程之间如何通信? 2.

java 抓取网页图片

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86

java抓取网页数据,登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

推荐一个不错的抓取匹配源码的正则表达式网站

在线网址:http://regexpal.com/ 本人用于抓取匹配的源码,更多功能自己研究. 推荐一个不错的抓取匹配源码的正则表达式网站,布布扣,bubuko.com

Java抓取网页数据(原网页+Javascript返回数据)

转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同站点对数据的显示方式略有不同! 本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数据. 一.抓取原网页. 这个样例我们准备从http://ip.chinaz.com上抓取ip查询的结果: 第一步:打开这个网页,然后输入IP:111.142.

Java抓取网页数据(原来的页面+Javascript返回数据)

转载请注明出处. 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因.我们须要採集某个站点的数据.但因为不同站点对数据的显示方式略有不同! 本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据.(2)抓取网页Javascript返回的数据. 一.抓取原网页. 这个样例我们准备从http://ip.chinaz.com上抓取ip查询的结果: 第一步:打开这个网页.然后输入IP:111.142.

Jsoup简介——使用Java抓取网页数据

概述 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML: 2. 使用DOM或CSS选择器来查找.取出数据: 3. 可操作HTML元素.属性.文本: jsoup是基于MIT协议发布的,可放心使用于商业项目. 关于Jsoul的更多介绍,请访问Jsoul的官网:http://jsoup.o

java抓取网页代码

代码如下 import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; public class Main { private String u; private String encoding; public static void main(String[] args) throws Exception { Mai