2010-09-01 90 views
0

在我的项目中,我们需要使用虚拟打印机,然后捕获文件(大部分时间位图)并从中提取数据。并像这样将其转换为xml。获取数据发送到打印机

<document name="file://C:\DOCUME~1\ilanit\LOCALS~1\Temp\p0129600584.htm"> 

<lineXY x="0" y="0" height="1656" width="2275" /> 
+1

所以你问如何写在C#虚拟打印机,或? – 2010-09-01 06:42:36

+0

其实没有。我想知道如何将数据传送到打印机。 如果我可以解析它? ,如果我使用pdfcreator DLL,我该如何解析(获取数据)。如果你有一个很好的链接如何建立一个虚拟打印机将会很好 – guy 2010-09-01 07:14:01

+0

我根据你的意见更新了我的回复。也许关于你想要做什么的更多细节将有所帮助(文件来自哪里,你需要什么,为什么你需要这些信息,以后将存储在哪里等)。 – 2010-09-13 14:42:53

回答

0

是否正在寻找类似Redmon(与输出到文件以及启动应用程序一起使用)?如果是这样,你可以使用它,或者也有其他人。 Redmon有点过时了,根据操作系统的不同,你可能会遇到问题。如果可以的话,在问题中添加更多细节和细节,因为它有点混乱。

更新(根据注释):如果源是PDF或其他文档(即:Word),它具有实际文本而不仅仅是图形(扫描/图像)类型的数据,您可以使用Postscript驱动程序(类型1可能工作最好),然后在捕获打印文件后提取文本。如果您不打算将打印文件用于实际输出并只需要数据,则可以随时尝试Windows中的Generic Text驱动程序,因为它将忽略graphcis并将文本放在输出文件中。只要输出是一致的,一个正则表达式应该能够提取出你需要的东西。

如果数据本质上是图形(如正在打印的扫描图像),则需要捕获打印作业,将其转换为图形图像(因为它将是具有PCL或Postscript等的打印文件。 ),然后通过OCR引擎运行它以提取所需内容。

+0

好。可以说我们有某种图像(pdf,jpeg,bitmap),我们需要从这个图像中提取数据(某些数字)。我们首先想到的是将数据发送到打印机(可以是虚拟的),现在我们正在考虑解析图像文件。你的想法请。 – guy 2010-09-13 13:36:41

+0

@guy:这与你第一次描述的(imo)有点不同。你在寻找一种OCR算法吗? – Bobby 2010-09-13 14:51:53