1、添加Microsoft.Vbe.Interop.dll引用。
2、以下方法可以简单的读取到word文档文字内容,不包括图片、格式等。
private string ReadWordFile(string file) { string filePath = Server.MapPath(file); if (System.IO.File.Exists(filePath)) { Microsoft.Office.Interop.Word.ApplicationClass wordApp = new Microsoft.Office.Interop.Word.ApplicationClass(); object fileobj = filePath; object nullobj = System.Reflection.Missing.Value; //打开指定文件(不同版本的COM参数个数有差异,一般而言除第一个外都用nullobj就行了) Microsoft.Office.Interop.Word.Document doc = wordApp.Documents.Open(ref fileobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj, ref nullobj); //取得doc文件中的文本 string outText = doc.Content.Text; //关闭文件 doc.Close(ref nullobj, ref nullobj, ref nullobj); //关闭COM wordApp.Quit(ref nullobj, ref nullobj, ref nullobj); //返回 return outText; } return null; }
3、把word文档正确展示出来,把word转换成html文档,然后读取出来。
private void ChangeWordToHtml(string docFilePath, string htmlFilePath) { ApplicationClass word = new ApplicationClass(); Type wordType = word.GetType(); Documents docs = word.Documents; Type docsType = docs.GetType(); object file = docFilePath; Document doc = (Document)docsType.InvokeMember("Open", BindingFlags.InvokeMethod, null, (object)docs, new Object[] { file, true, true }); //判断与文件转换相关的文件是否存在,存在则删除。(这里,最好还判断一下存放文件的目录是否存在,不存在则创建) if (File.Exists(htmlFilePath)) { File.Delete(htmlFilePath); } //每一个html文件,有一个对应的存放html相关元素的文件夹(html文件名.files) if (Directory.Exists(htmlFilePath.Replace(".html", ".files"))) { Directory.Delete(htmlFilePath.Replace(".html", ".files"), true); } Type docType = doc.GetType(); object saveFileName = htmlFilePath; docType.InvokeMember("SaveAs", BindingFlags.InvokeMethod, null, doc, new object[] { saveFileName, WdSaveFormat.wdFormatHTML }); // 退出 Word wordType.InvokeMember("Quit", BindingFlags.InvokeMethod, null, word, null); }
private string LoadFileContent(string fileName) { if (fileName != "") { string path ="~/path/"; string docFilePath = Server.MapPath(path + fileName); string htmlFilePath = Server.MapPath(path + fileName.Split(‘.‘)[0] + ".html"); ChangeWordToHtml(docFilePath, htmlFilePath); if (File.Exists(htmlFilePath)) { //确保读取html文件时对当前文件操作的上一进程结束 Thread.Sleep(2000); string content = File.ReadAllText(htmlFilePath, Encoding.Default); return content; } } return null; }
时间: 2024-10-11 21:27:08