文档在线预览的实现

最近在研究企业文档管理,这个是基本上所有企业都需要的软件,当然也是有很多种解决方案。对于企业文档来说,最基本的需求就是独立存储,共享。这种需求只需要建立一个Windows共享文件夹或者架一个Samba服务器即可实现,无法做复杂的权限管理,统计等。另一种方案就是架一个Web应用,比如SharePoint,就可以实现。

既然是WEB应用,进一步的需求是能够在线查看文档,根据用户需求可能不允许下载,不允许打印文档。这一点微软的高级解决方案是使用RMS,能够设置每个用户的打开权限,是否打印等,要求必须是域内,而且只管理Office文件的权限,对txt,pdf就没办法了。另外一个解决方案是在线文档预览,用户在网页中查看文档内容,用户无需拿到原始文档,如果有权限的话,可以允许用户下载文档。这就就是百度文库,豆丁之类的网站的功能。下面来说说怎么实现。

1.文档统一转换为pdf

这里的文档我们要看是什么格式,不同的格式有不同的转换方法。

1.1 Office文档转换pdf

对于Office文档(Word,Excel,PowerPoint),那么可以调用Office提供的COM接口,把文档另存为PDF。这个要求服务器上必须安装Office,同时要注意权限,不然很容易导致在本地调试时可以转换为PDF,但是一旦部署到服务器上去就不行。另外还需要注意的是,如果Office转换pdf时发生异常,可能导致Office的进程驻留在服务器,不断驻留Office进程会导致服务器资源耗尽。

这是Office文档转换为pdf的代码:

/// <summary> 
/// 将word文档转换成PDF格式 
/// </summary> 
/// <param name="sourcePath"></param> 
/// <param name="targetPath"></param> 
/// <returns></returns> 
public static bool ConvertWord2Pdf(string sourcePath, string targetPath) 

    bool result; 
    Word.WdExportFormat exportFormat= Word.WdExportFormat.wdExportFormatPDF; 
    object paramMissing = Type.Missing; 
    Word.Application wordApplication = new Word.Application(); 
    Word.Document wordDocument = null; 
    try 
    { 
        object paramSourceDocPath = sourcePath; 
        string paramExportFilePath = targetPath;
        Word.WdExportFormat paramExportFormat = exportFormat; 
        Word.WdExportOptimizeFor paramExportOptimizeFor = 
                Word.WdExportOptimizeFor.wdExportOptimizeForPrint; 
        Word.WdExportRange paramExportRange = Word.WdExportRange.wdExportAllDocument; 
        int paramStartPage = 0; 
        int paramEndPage = 0; 
        Word.WdExportItem paramExportItem = Word.WdExportItem.wdExportDocumentContent; 
        Word.WdExportCreateBookmarks paramCreateBookmarks = 
                Word.WdExportCreateBookmarks.wdExportCreateWordBookmarks; 
    
        wordDocument = wordApplication.Documents.Open( 
                ref paramSourceDocPath, ref paramMissing, ref paramMissing, 
                ref paramMissing, ref paramMissing, ref paramMissing, 
                ref paramMissing, ref paramMissing, ref paramMissing, 
                ref paramMissing, ref paramMissing, ref paramMissing, 
                ref paramMissing, ref paramMissing, ref paramMissing, 
                ref paramMissing);
        if (wordDocument != null) 
            wordDocument.ExportAsFixedFormat(paramExportFilePath, 
                    paramExportFormat, false, 
                    paramExportOptimizeFor, paramExportRange, paramStartPage, 
                    paramEndPage, paramExportItem, true, 
                    true, paramCreateBookmarks, true, 
                    true, false, 
                    ref paramMissing); 
        result = true; 
    } 
    finally 
    { 
        if (wordDocument != null) 
        { 
            wordDocument.Close(ref paramMissing, ref paramMissing, ref paramMissing); 
            wordDocument = null; 
        } 
        if (wordApplication != null) 
        { 
            wordApplication.Quit(ref paramMissing, ref paramMissing, ref paramMissing); 
            wordApplication = null; 
        } 
        GC.Collect(); 
        GC.WaitForPendingFinalizers(); 
        GC.Collect(); 
        GC.WaitForPendingFinalizers(); 
    } 
    return result; 
}
/// <summary> 
/// 将excel文档转换成PDF格式 
/// </summary> 
/// <param name="sourcePath"></param> 
/// <param name="targetPath"></param> 
/// <returns></returns> 
public static bool ConvertExcel2Pdf(string sourcePath, string targetPath) 

    bool result; 
    object missing = Type.Missing; 
    Excel.XlFixedFormatType targetType= Excel.XlFixedFormatType.xlTypePDF; 
    Excel.Application application = null; 
    Excel.Workbook workBook = null; 
    try 
    { 
        application = new Excel.Application(); 
        object target = targetPath; 
        workBook = application.Workbooks.Open(sourcePath, missing, missing, missing, missing, missing, 
                missing, missing, missing, missing, missing, missing, missing, missing, missing);
        workBook.ExportAsFixedFormat(targetType, target, Excel.XlFixedFormatQuality.xlQualityStandard, true, false, missing, missing, missing, missing); 
        result = true; 
    } 
    catch 
    { 
        result = false; 
    } 
    finally 
    { 
        if (workBook != null) 
        { 
            workBook.Close(true, missing, missing); 
            workBook = null; 
        } 
        if (application != null) 
        { 
            application.Quit(); 
            application = null; 
        } 
        GC.Collect(); 
        GC.WaitForPendingFinalizers(); 
        GC.Collect(); 
        GC.WaitForPendingFinalizers(); 
    } 
    return result; 
}
/// <summary> 
/// 将ppt文档转换成PDF格式 
/// </summary> 
/// <param name="sourcePath"></param> 
/// <param name="targetPath"></param> 
/// <returns></returns> 
public static bool ConvertPowerPoint2Pdf(string sourcePath, string targetPath) 

    bool result; 
    PowerPoint.PpSaveAsFileType targetFileType= PowerPoint.PpSaveAsFileType.ppSaveAsPDF; 
    PowerPoint.Application application = null; 
    PowerPoint.Presentation persentation = null; 
    try 
    { 
        application = new PowerPoint.Application(); 
        persentation = application.Presentations.Open(sourcePath, MsoTriState.msoTrue, MsoTriState.msoFalse, MsoTriState.msoFalse); 
        persentation.SaveAs(targetPath, targetFileType, MsoTriState.msoTrue);
        result = true; 
    } 
    catch 
    { 
        result = false; 
    } 
    finally 
    { 
        if (persentation != null) 
        { 
            persentation.Close(); 
            persentation = null; 
        } 
        if (application != null) 
        { 
            application.Quit(); 
            application = null; 
        } 
        GC.Collect(); 
        GC.WaitForPendingFinalizers(); 
        GC.Collect(); 
        GC.WaitForPendingFinalizers(); 
    } 
    return result; 
}

1.2 纯文本转换pdf

如果是文本需要转换为PDF,我们可以使用iTextSharp这个组件,对于纯文本,注意的是源文件中没有设置字体之类的,需要在转换成PDF时指定字体,否则对于中文可能由于没有设置字体而转换不出来。

/// <summary> 
       /// 将Txt转换为PDF 
       /// </summary> 
       /// <param name="sourcePath"></param> 
       /// <param name="targetPath"></param> 
       /// <returns></returns> 
       public static bool ConvertText2Pdf(string sourcePath, string targetPath) 
       { 
           var text = FileHelper.ReadTextFile(sourcePath); 
           Document document = new Document(PageSize.A4);
           try 
           { 
               //step 2:创建一个writer用于监听Document以及通过PDF-stream指向一个文件  
               PdfWriter.GetInstance(document, new FileStream(targetPath, FileMode.Create)); 
               // step 3: 打开document  
               document.Open();
               var f = GetFont(); 
               // step 4: 添加一段话到document中  
               document.Add(new Paragraph(text, f)); 
           } 
           catch (Exception ex) 
           { 
               return false; 
           } 
           finally 
           { 
               if (document.IsOpen()) 
                   // step 5: 关闭document  
                   document.Close(); 
           } 
           return true; 
       }
       private static Font GetFont() 
       { 
           var fontPath = (string) ConfigurationManager.AppSettings["FontPath"]; 
           if (string.IsNullOrEmpty(fontPath))//没有指定字体就用楷体 
           { 
               var fontName = "楷体"; 
               if (!FontFactory.IsRegistered(fontName)) 
               { 
                   fontPath = Environment.GetFolderPath(Environment.SpecialFolder.Windows) + @"\Fonts\simkai.ttf"; 
                   FontFactory.Register(fontPath); 
               } 
               return FontFactory.GetFont(fontName, BaseFont.IDENTITY_H, BaseFont.EMBEDDED); 
           } 
           BaseFont bfChinese = BaseFont.CreateFont(fontPath,BaseFont.IDENTITY_H,BaseFont.NOT_EMBEDDED); 
           Font fontChinese = new Font(bfChinese, 16f, Font.NORMAL); 
           return fontChinese; 
       }

1.3 HTML转换pdf

HTML中包含的元素较多,比较复杂,主要有两种方法,一种是调用浏览器的接口,让浏览器把HTML打印为PDF,另外就是ITextSharp提供了专门的XML/HTML转换组件:XML Worker,这个已经独立出来,不包含在ITextSharp中,需要单独下载。

public static bool ConvertHtml2Pdf(string text, string pdfPath) 
        { 
            Document document = new Document(PageSize.A4);
            try 
            { 
                PdfWriter.GetInstance(document, new FileStream(pdfPath, FileMode.Create)); 
                document.Open(); 
             
                var fontName = "楷体"; 
                if (!FontFactory.IsRegistered(fontName)) 
                { 
                    var fontPath = Environment.GetFolderPath(Environment.SpecialFolder.Windows) + @"\Fonts\simkai.ttf"; 
                    FontFactory.Register(fontPath); 
                } 
                var elements = iTextSharp.tool.xml.XMLWorkerHelper.ParseToElementList(text, @"body { 
    font-size: 16px; 
    color: #F00; 
    font-family: 楷体; 
}"); 
                //iTextSharp.text. 
                foreach (var element in elements) 
                { 
                    document.Add(element); 
                }
            } 
            catch (DocumentException de) 
            { 
                Console.Error.WriteLine(de.Message); 
            } 
            catch (IOException ioe) 
            { 
                Console.Error.WriteLine(ioe.Message); 
            } 
            document.Close(); 
            return true; 
        }

1.4添加水印

以上都是转换成pdf的功能,在转换后,我们可以进一步使用ITextSharp对pdf进行加工,比较常见的添加水印功能。其实就是做一个淡淡的背景透明的图片,然后打开pdf文件,在每一页中画上水印图片即可。

/// <summary> 
/// 添加水印 
/// </summary> 
/// <param name="inputPath">源PDF文件路径</param> 
/// <param name="outputPath">加水印后的PDF路径</param> 
/// <param name="watermarkPath">水印图片的路径</param> 
/// <param name="error"></param> 
/// <returns></returns> 
public static bool AddWatermark(string inputPath, string outputPath, string watermarkPath, ref string error) 

    try 
    { 
        PdfReader pdfReader = new PdfReader(inputPath); 
        int numberOfPages = pdfReader.NumberOfPages; 
        FileStream outputStream = new FileStream(outputPath, FileMode.Create); 
        PdfStamper pdfStamper = new PdfStamper(pdfReader, outputStream); 
        PdfContentByte waterMarkContent;
        iTextSharp.text.Image image = iTextSharp.text.Image.GetInstance(watermarkPath);
        image.SetAbsolutePosition(10, 10); 
        for (int i = 1; i <= numberOfPages; i++) 
        { 
            waterMarkContent = pdfStamper.GetUnderContent(i); 
            waterMarkContent.AddImage(image); 
        } 
        pdfStamper.Close(); 
        pdfReader.Close(); 
        outputStream.Close(); 
        return true; 
    } 
    catch (Exception ex) 
    { 
        error = ex.StackTrace; 
        return false; 
    } 
}

2.在线预览pdf文档

前面已经统一转换为pdf文档,接下来就是对pdf的在线预览。这个在以前是不现实的,现在有了HTML5,只要浏览器支持HTML5就可以使用pdf.js库,将服务器上的pdf文件转换成HTML5代码展示在浏览器上。另外还有一个解决方案是使用Flash,需要把pdf文件进一步转换为swf文件,然后由Flash播放器来播放这个文档。可惜Flash已经是一个过时即将淘汰的技术了,像iPad,iPhone就不支持Flash,所以使用HTML5才是更明智的选择。

pdf.js网站已经提供了库和示例,浏览页面是http://mozilla.github.io/pdf.js/web/viewer.html,我们要打开我们转换的文件,只需要在URL中添加参数即可:

/web/viewer.html?file=yourpdf.pdf
我们可以进一步修改viewer.html中的代码,根据需求去掉下载,打印等按钮,禁止用户下载和打印文件。
时间: 2024-10-25 03:57:37

文档在线预览的实现的相关文章

office转html文档在线预览

要想实现office文档在线预览,可以使用红樱枫软件公司开发的数据格式转换软件HTML Filter,实现MS Office系列文档到HTML的快速转换,通过浏览器浏览HTML的内容.该产品可以将 word转html, excel转html, ppt转html,方便用户在不方便下载附件的时候,可以直接在线预览文档内容,应用在邮箱文档附件预览.云存储.云网盘的文档预览等方面. 本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言,多种操作系统,提供了多种形式的API功能接口,便于用户使

Java实现文档在线预览(openoffice+swfTools+FlexPaper)

      文档在线预览在项目中早就完成了,后来又经过了一次优化.但是一直都没时间去记录遇到的问题,文档在线预览的详细步骤可以参考http://blog.csdn.net/u013614451/article/details/24261503,感谢博主写了这么好的文章帮助我完成了项目中主要的模块.下面是文档转换的工具类DocConvert.java,并标注出我修改的部分. package com.he.util; import java.io.BufferedInputStream; impor

轻松便捷的文档在线预览工具

北京博信施科技有限公司是一家专注于Office文档在线预览及PDF文档在线预览服务的专业提供商,依据HTML标准的4.01版本规范,研制开发出Microsoft Word.Excel.Powerpoint文档转换HTML文件格式以及Adobe PDF文件转换HTML文件格式的软件产品.实现Microsoft Word文档在线预览.Excel表格在线预览.Powerpoint演示文档在线预览及Adobe PDF文档在线预览,完美呈现Microsoft Office及Adobe PDF文档原始样式和

office文档在线预览 (doc、docx、ppt、pptx、xls、xlsx)

要想实现office文档在线预览,可以使用红樱枫软件公司开发的数据格式转换软件HTML Filter,该产品可以以程序库的形式提供给用户,提供各种程序接口,如:C/C++.Java..Net等接口,供用户将软件镶嵌在自己的系统中.通过调用本产品的提供的API功能接口,实现MS Office系列文档到HTML的快速转换.本产品在国内外得到了广泛的应用,在国内有腾讯.搜狐等多家知名企业使用本产品.对多种文档进行统一管理,编辑,检索和浏览.用户可以使用本产品,十分便利的将office文档Word,Ex

EDU-paas文档在线预览工具

本软件为edu-paas的文档在线预览,为开源软件.支持所有office文档在线预览. 文件类型全,转化快,跨平台响应式预览,兼容所有访问端. 下载地址 live.edu-paas.com/dowmCenter/EDUDocumentOnlinePreviewToolV.1.zip 源程序下载地址 live.edu-paas.com/dowmCenter/EDUFbDocumentOnlinePreviewToolV.1.zip 发布好的web 1 string serverUrl = "htt

仿百度文库实现文档在线预览

原文:仿百度文库实现文档在线预览 源代码下载地址:http://www.zuidaima.com/share/1550463679990784.htm 挺不错的,这是别人群里共享的,我现在共享给牛牛们

文档在线预览开源实现方案一:OpenOffice + SwfTools + FlexPaper

在文档在线预览方面,项目组之前使用的是Microsoft office web apps, 由于该方案需要按照微软License付费,项目经理要我预研一个文档在线预览的开源实现方案.仔细钻入该需求发现其实文档在线预览的开源方案还是挺多的,今天研究的方案一采用的技术栈是:OpenOffice +SwfTools + FlexPaper, 这种方案是目前比较成熟的方案,很多网站采用该方案来实现在线预览的功能.这种方案的思路是这样的: 通过OpenOffice的服务将office文档及文本文档转换为p

asp.net如何实现word文档在线预览

原文:asp.net如何实现word文档在线预览 实现方式:office文档转html,再在浏览器里面在线浏览 1.首先引入com组件中office库,然后在程序集扩展中引入word的dll 2.将Microsoft.Office.Interop.Word的嵌入互操作类型设置为 false,如图 3.主要代码 C# 代码   复制 using System; using System.Collections.Generic; using System.Linq; using System.Web

基于HTML的轻松便捷的文档在线预览工具—HTMLFilter

北京博信施科技有限公司是一家专注于Office文档在线预览及PDF文档在线预览服务的专业提供商,依据HTML标准的4.01版本规范,研制开发出Microsoft Word.Excel.Powerpoint文档转换HTML文件格式以及Adobe PDF文件转换HTML文件格式的软件产品.实现Microsoft Word文档在线预览.Excel表格在线预览.Powerpoint演示文档在线预览及Adobe PDF文档在线预览,完美呈现Microsoft Office及Adobe PDF文档原始样式和

Java实现word文档在线预览,读取office文件

想要实现word或者其他office文件的在线预览,大部分都是用的两种方式,一种是使用openoffice转换之后再通过其他插件预览,还有一种方式就是通过POI读取内容然后预览. 一.使用openoffice方式实现word预览 主要思路是: 1.通过第三方工具openoffice,将word.excel.ppt.txt等文件转换为pdf文件 2.通过swfTools将pdf文件转换成swf格式的文件 3.通过FlexPaper文档组件在页面上进行展示 我使用的工具版本: openof:3.4.