如何以Java实现网页截图技术

今天看到某网友关于“如何以Java实现网页截图技术”的咨询帖,由于出现该咨询的地点非常不适合较长回复,故以博文形式回答。

事实上,如果您想以Java实现网页截图,也就是“输入一段网址,几秒钟过后就能截取一张网页缩略图”的效果。那么,您至少有3种方式可以选择。

1、最直接的方式——使用Robot

方法详解:该方法利用Robat提供的强大桌面操作能力,硬性调用浏览器打开指定网页,并将网页信息保存到本地。

优势:简单易用,不需要任何第三方插件。

缺点:不能同时处理大量数据,技术含量过低,属于应急型技巧。

实现方法:使用如下代码即可。

public static void main(String[] args) throws MalformedURLException,  
        IOException, URISyntaxException, AWTException {  
    //此方法仅适用于JdK1.6及以上版本  
    Desktop.getDesktop().browse(  
            new URL("http://google.com/intl/en/").toURI());  
    Robot robot = new Robot();  
    robot.delay(10000);  
    Dimension d = new Dimension(Toolkit.getDefaultToolkit().getScreenSize());  
    int width = (int) d.getWidth();  
    int height = (int) d.getHeight();  
    //最大化浏览器  
    robot.keyRelease(KeyEvent.VK_F11);  
    robot.delay(2000);  
    Image image = robot.createScreenCapture(new Rectangle(0, 0, width,  
            height));  
    BufferedImage bi = new BufferedImage(width, height,  
            BufferedImage.TYPE_INT_RGB);  
    Graphics g = bi.createGraphics();  
    g.drawImage(image, 0, 0, width, height, null);  
    //保存图片  
    ImageIO.write(bi, "jpg", new File("google.jpg"));  
}

2、最常规的方式——利用JNI,调用第三方C/C++组件

方法详解:目前来讲,Java领域对于网页截图组件的开发明显不足(商机?),当您需要完成此种操作时,算得上碰到了Java的软肋。但是,众所周知Java也拥有强大的JNI能力,可以轻易将C/C++开发的同类组件引为己用。

优势:实现简单,只需要封装对应的DLL文件,就可以让Java实现同类功能。

劣势:同其他JNI实现一样,在跨平台时存在隐患,而且您的程序将不再属于纯Java应用。

实现方法:可参见此用例,具体封装何种C/C++组件请自行选择。

PS:示例来源于ACA HTML to Image Converter项目(http://www.acasystems.com/en/web-thumb-activex/faq-convert-html-to-image-in-java.htm ),这是一个收费的HTML转Image第三方组件,但封装方式在Java中大同小异。

引用JNI封装:

import sun.awt.*;  
import java.awt.*;  
import javax.swing.*;  
import java.awt.event.*;  
import java.awt.*;  
import java.awt.peer.*;  
public class Snap  
{  
  static  
  {  
    System.loadLibrary("Snap");  
  }  
  public static void main( String[] argv )  
  {  
    Snap t_xSnap = new Snap();  
    t_xSnap.Start("http://www.google.com", "snapshot-google.png");  
  }  
  public native void Start(String pi_strURL, String pi_strImageName);  
}

CPP部分的实现:

#include <windows.h>  
#include <atlbase.h>  
#include "snap.h"  
#pragma comment(lib,"atl.lib")  
#import "./../../acawebthumb.dll" no_namespace  
JNIEXPORT void JNICALL Java_Snap_Start(JNIEnv *pEnv, jobject, jstring pi_strUrl, jstring pi_strFileName)  
{  
  CoInitialize(0);  
  _bstr_t t_strUrl = pEnv->GetStringUTFChars(pi_strUrl, 0);  
  _bstr_t t_strFileName = pEnv->GetStringUTFChars(pi_strFileName, 0);      
  IThumbMakerPtr HTML_Converter = NULL;  
  HRESULT hr = HTML_Converter.CreateInstance(L"ACAWebThumb.ThumbMaker");      
  if (SUCCEEDED(hr))  
  {   
    HTML_Converter->SetURL(t_strUrl);  
    if ( 0 == HTML_Converter->StartSnap() )  
      HTML_Converter->SaveImage(t_strFileName);  
  }  
  if (HTML_Converter)  
    HTML_Converter.Release();  
  CoUninitialize();           
}

以该组件图像化yahoo界面的效果图:

3、最扎实的方法——自行解析HTML标记,并将其图像化

方法详解:众所周知,HTML之所以在浏览器中以具体的网页格式出现,并非服务器端传了一整个应用到客户端,而是源自于浏览器对于客户端自行解析的结果。因此,只要我们将对应的解析一一实现,那么将网页图形化,就将不是什么难事。


优势:纯Java实现,一劳永逸,一旦开发完成则永远通用,而且有一定的商用价值。

劣势:开发费时,且需要针对不同语法做精确分析,才能保证输出的基本正确。尤其在涉及到JavaScript解析时,难度将尤其增大。

实现方法:目前尚无具体案例可供参考。但是,由于Java有jdic之类的浏览器项目存在(https://jdic.dev.java.net/),而Java图形界面又属绘制生成。从理论上说,我们可以将所有具备Graphics的组件图形化保存。

而如果自行解析,那么您需要建立HTML解析器(或使用第三方的,万幸Java在这方面的组件很多),了解Java2D机制,了解何时该使用drawString绘制文字,何时又该使用drawImage插入图片等等。

补充:

这是一个利用内置浏览器截图的示例,使用了DJNativeSwing组件。

示例工程下载地址(Eclipse工程,含lib):http://greenvm.googlecode.com/files/Screenshot.7z

import java.awt.BorderLayout;  
import java.awt.Dimension;  
import java.awt.FlowLayout;  
import java.awt.image.BufferedImage;  
import java.io.File;  
import java.io.IOException;  
import javax.imageio.ImageIO;  
import javax.swing.JFrame;  
import javax.swing.JPanel;  
import javax.swing.SwingUtilities;  
import chrriis.dj.nativeswing.swtimpl.NativeComponent;  
import chrriis.dj.nativeswing.swtimpl.NativeInterface;  
import chrriis.dj.nativeswing.swtimpl.components.JWebBrowser;  
import chrriis.dj.nativeswing.swtimpl.components.WebBrowserAdapter;  
import chrriis.dj.nativeswing.swtimpl.components.WebBrowserEvent;  
public class Main extends JPanel {  
    /** 
     *  
     */  
    private static final long serialVersionUID = 1L;  
    // 行分隔符  
    final static public String LS = System.getProperty("line.separator", "/n");  
    // 文件分割符  
    final static public String FS = System.getProperty("file.separator", "//");  
    //以javascript脚本获得网页全屏后大小  
    final static StringBuffer jsDimension;  
      
    static {  
        jsDimension = new StringBuffer();  
        jsDimension.append("var width = 0;").append(LS);  
        jsDimension.append("var height = 0;").append(LS);  
        jsDimension.append("if(document.documentElement) {").append(LS);  
        jsDimension.append(  
                        "  width = Math.max(width, document.documentElement.scrollWidth);")  
                .append(LS);  
        jsDimension.append(  
                        "  height = Math.max(height, document.documentElement.scrollHeight);")  
                .append(LS);  
        jsDimension.append("}").append(LS);  
        jsDimension.append("if(self.innerWidth) {").append(LS);  
        jsDimension.append("  width = Math.max(width, self.innerWidth);")  
                .append(LS);  
        jsDimension.append("  height = Math.max(height, self.innerHeight);")  
                .append(LS);  
        jsDimension.append("}").append(LS);  
        jsDimension.append("if(document.body.scrollWidth) {").append(LS);  
        jsDimension.append(  
                "  width = Math.max(width, document.body.scrollWidth);")  
                .append(LS);  
        jsDimension.append(  
                "  height = Math.max(height, document.body.scrollHeight);")  
                .append(LS);  
        jsDimension.append("}").append(LS);  
        jsDimension.append("return width + ‘:‘ + height;");  
    }  
  //DJNativeSwing组件请于http://djproject.sourceforge.net/main/index.html下载  
    public Main(final String url, final int maxWidth, final int maxHeight) {  
        super(new BorderLayout());  
        JPanel webBrowserPanel = new JPanel(new BorderLayout());  
        final String fileName = System.currentTimeMillis() + ".jpg";  
        final JWebBrowser webBrowser = new JWebBrowser(null);  
        webBrowser.setBarsVisible(false);  
        webBrowser.navigate(url);  
        webBrowserPanel.add(webBrowser, BorderLayout.CENTER);  
        add(webBrowserPanel, BorderLayout.CENTER);  
        JPanel panel = new JPanel(new FlowLayout(FlowLayout.CENTER, 4, 4));  
        webBrowser.addWebBrowserListener(new WebBrowserAdapter() {  
            // 监听加载进度  
            public void loadingProgressChanged(WebBrowserEvent e) {  
                // 当加载完毕时  
                if (e.getWebBrowser().getLoadingProgress() == 100) {  
                    String result = (String) webBrowser  
                            .executeJavascriptWithResult(jsDimension.toString());  
                    int index = result == null ? -1 : result.indexOf(":");  
                    NativeComponent nativeComponent = webBrowser  
                            .getNativeComponent();  
                    Dimension originalSize = nativeComponent.getSize();  
                    Dimension imageSize = new Dimension(Integer.parseInt(result  
                            .substring(0, index)), Integer.parseInt(result  
                            .substring(index + 1)));  
                    imageSize.width = Math.max(originalSize.width,  
                            imageSize.width + 50);  
                    imageSize.height = Math.max(originalSize.height,  
                            imageSize.height + 50);  
                    nativeComponent.setSize(imageSize);  
                    BufferedImage image = new BufferedImage(imageSize.width,  
                            imageSize.height, BufferedImage.TYPE_INT_RGB);  
                    nativeComponent.paintComponent(image);  
                    nativeComponent.setSize(originalSize);  
                    // 当网页超出目标大小时  
                    if (imageSize.width > maxWidth  
                            || imageSize.height > maxHeight) {  
                        //截图部分图形  
                        image = image.getSubimage(0, 0, maxWidth, maxHeight);  
                        /*此部分为使用缩略图 
                        int width = image.getWidth(), height = image 
                            .getHeight(); 
                         AffineTransform tx = new AffineTransform(); 
                        tx.scale((double) maxWidth / width, (double) maxHeight 
                                / height); 
                        AffineTransformOp op = new AffineTransformOp(tx, 
                                AffineTransformOp.TYPE_NEAREST_NEIGHBOR); 
                        //缩小 
                        image = op.filter(image, null);*/  
                    }  
                    try {  
                        // 输出图像  
                        ImageIO.write(image, "jpg", new File(fileName));  
                    } catch (IOException ex) {  
                        ex.printStackTrace();  
                    }  
                    // 退出操作  
                    System.exit(0);  
                }  
            }  
        }  
        );  
        add(panel, BorderLayout.SOUTH);  
    }  
    public static void main(String[] args) {  
        NativeInterface.open();  
        SwingUtilities.invokeLater(new Runnable() {  
            public void run() {  
                // SWT组件转Swing组件,不初始化父窗体将无法启动webBrowser  
                JFrame frame = new JFrame("以DJ组件保存指定网页截图");  
                // 加载指定页面,最大保存为640x480的截图  
                frame.getContentPane().add(  
                        new Main("http://blog.csdn.net/cping1982", 640, 480),  
                        BorderLayout.CENTER);  
                frame.setSize(800, 600);  
                // 仅初始化,但不显示  
                frame.invalidate();  
                frame.pack();  
                frame.setVisible(false);  
            }  
        });  
        NativeInterface.runEventPump();  
    }  
}
时间: 2024-10-16 14:58:23

如何以Java实现网页截图技术的相关文章

使用PhantomJS实现网页截图服务

这是上半年遇到的一个小需求,想实现网页的抓取,并保存为图片.研究了不少工具,效果都不理想,不是显示太差了(Canvas.Html2Image.Cobra),就是性能不怎么样(如SWT的Brower).后发现无界面浏览器可以满足这个条件,大致研究了一下PhantomJS与CutyCapt,两者都是Webkit内核,其中PhantomJS使用上更方便一些,尤其在Windows平台上,如果在Linux下,从2.0版本后需要自己去机器上编译了(大概要编译3个小时,不得不说,g++就是个渣渣,同样的项目,

html2canvas根据DOM元素样式实现网页截图

html2canvas根据DOM元素样式实现网页截图 html2canvas是一个相当不错的JavaScript类库,它使用了html5和css3的一些新功能特性,实现了在客户端对网页进行截图的功能.html2canvas通过获取页面的DOM和元素的样式信息,并将其渲染成canvas图片,从而实现给页面截图的功能. 它不需要来自服务器任何渲染,整张图片都是在客户端浏览器创建.当浏览器不支持Canvas时,将采用Flashcanvas或ExplorerCanvas技术代替实现.以下浏览器能够很好的

用java编网页的学习流程,我的一些小心得(初学java到高深运用)

(1)java基础:首先得会写int,String,for循环,数组,**等等(熟练各种基础的关键字,各种java自带的排序,随即等等算法)什么是封装,继承,多态,然后private,public,protected 是什么区别,什么是静态,什么是重载,什么是重写,然后最重要的是明白什么是对象,并且熟练运用接口.(这是给刚刚接触java的人写的,所以写的详细一点). (2)然后就是搭建小型网站:jsp+servlet+jdbc+mysql+tomcat(jsp是java自带的网页样式,需要把网页

java 最流行的技术框架集合

开发快报: 页面打印功能,websocket 强制下线功能,玩转websocket技术  [金牌]获取[下载地址]   QQ: 313596790A 代码生成器(开发利器);     增删改查的处理类,service层,mybatis的xml,SQL( mysql   和oracle)脚本,   jsp页面 都生成   就不用写搬砖的代码了,生成的放到项目里,可以直接运行B 阿里巴巴数据库连接池druid;  数据库连接池  阿里巴巴的 druid.Druid在监控.可扩展性.稳定性和性能方面都

对网页分享技术的思考

提高网页浏览量是提高网站信息影响的前提,提高网页浏览量的方式是多种多样的,其中向特定页面添加网页分享是一个很好的主意,网页分享实现方式很多,这里介绍一下百度分享的应用: 一.百度分享相关网址: 获取代码:http://share.baidu.com/code 帮助文档:http://share.baidu.com/help 二.百度分享之图标式: <%@ page language="java" contentType="text/html; charset=UTF-8

Atitit.java的浏览器插件技术 Applet japplet attilax总结

Atitit.java的浏览器插件技术  Applet  japplet attilax总结 1. Applet类及各个方法说明 1 2. JApplet类示例 2 3. / 用main方法运行JApplet   2 4. 设置获取参数 2 5. Firefox运行applet提示安全组织的解决 3 6. Japplet调用js 4 7. 调试的清除缓存 4 8. Class文件的位置 -推荐放在webroot下面 5 9. 参考 5 1. Applet类及各个方法说明 Applet类提供一个基

有了 serverless,前端也可以快速开发一个 Puppeteer 网页截图服务

更多云原生技术资讯可关注阿里巴巴云原生技术圈. Puppeteer 是什么? puppeteer 官网的介绍如下: Puppeteer is a Node library which provides a high-level API to control Chrome or Chromium over the DevTools Protocol. Puppeteer runs headless by default, but can be configured to run full (non

静态网页开发技术-HTML

今天我重新复习了一下静态网页开发技术,概括如下. 一 .HTML文档结构与基本语法 :放置了标签的文本文档,可供浏览器解释执行的网页文件 1.注释标记 2.标记 3.属性 二.基本标记与使用 1.网页基本结构与标记 2.文本与段落标记 3.列表标签 4.超链接标签 5.图片标记 6.定时刷新或跳转 7.表格 三 HTML表单标签与表单设计 1.<FORM>标记及其属性 2  <INPUT>标记及其属性 3 <下拉列表框<SELECT>,<OPTION>

(1-1)Java领域的相关技术

JAVA主要分为3类:JavaEE.JavaSE和JavaME.其中,JavaEE是网络编程,主要应用在与网络软件.如各类网站.ERP软件等等:JavaSE是企业级开发,如QQ.各种音乐视频播放器等:而JavaME是手机开发,如各类手机游戏.手机软件等! (1-1)Java领域的相关技术,布布扣,bubuko.com