2012-10-02 120 views
1

我写一个C#asp.net web应用程序接收简历的各种格式的文档,即,DOCX,PDF,文本等从各种文档类型

我在想,如果有一个简单的方法,我上的文字可以从文档中删除某些信息,无论它是什么文件类型,然后将编辑后的文件传递给最终用户?

被删除的信息将在一个字符串

+1

不,没有简单的方法来做到这一点。 – jrummell

回答

2

您需要解析使用单独的API每种文件类型进行。

+0

我认为这将是这种情况 –

+0

您可以创建一个抽象基类,稍后实现处理不同类型文档所需的方法。 – Oscar

+0

这肯定是最简单的方法来实现这一点。 –

0

如果你使用一个StreamReader(http://msdn.microsoft。您可以使用ReadToEnd函数将所有内容存储在一个字符串中,然后使用该函数:

MyString.Replace("Something to replace", ""); 

删除匹配项。如果文件格式不能作为字符串读入,则必须考虑不同的选项。但是,考虑到文件格式,可能会有更快的解决方案,并且可能不会简单地存储。

+0

与此问题是.doc文件可能会在您正在搜索的字符串中间有标记。在Word中以“要替换的东西”的形式呈现的文本可能不会作为“要替换的东西”存储在.doc文件中。 –

+0

DOCX是一个包含XML的压缩文件。 PDF和DOC都是二进制格式。我认为这种方法可能会失败... –

+0

够公平的,我想你可以读取字节数组并尝试从那里解析,但这不是一个简单的解决方案:p – Corey