我写一个C#asp.net web应用程序接收简历的各种格式的文档,即,DOCX,PDF,文本等从各种文档类型
我在想,如果有一个简单的方法,我上的文字可以从文档中删除某些信息,无论它是什么文件类型,然后将编辑后的文件传递给最终用户?
被删除的信息将在一个字符串
我写一个C#asp.net web应用程序接收简历的各种格式的文档,即,DOCX,PDF,文本等从各种文档类型
我在想,如果有一个简单的方法,我上的文字可以从文档中删除某些信息,无论它是什么文件类型,然后将编辑后的文件传递给最终用户?
被删除的信息将在一个字符串
您需要解析使用单独的API每种文件类型进行。
如果你使用一个StreamReader(http://msdn.microsoft。您可以使用ReadToEnd函数将所有内容存储在一个字符串中,然后使用该函数:
MyString.Replace("Something to replace", "");
删除匹配项。如果文件格式不能作为字符串读入,则必须考虑不同的选项。但是,考虑到文件格式,可能会有更快的解决方案,并且可能不会简单地存储。
与此问题是.doc文件可能会在您正在搜索的字符串中间有标记。在Word中以“要替换的东西”的形式呈现的文本可能不会作为“要替换的东西”存储在.doc文件中。 –
DOCX是一个包含XML的压缩文件。 PDF和DOC都是二进制格式。我认为这种方法可能会失败... –
够公平的,我想你可以读取字节数组并尝试从那里解析,但这不是一个简单的解决方案:p – Corey
不,没有简单的方法来做到这一点。 – jrummell