2010-03-03 36 views
0

我收到了一堆.DOC文档。我甚至没有肯定他们是Word文档,但即使他们是,我也需要打开并用例如。 Python从中提取信息。哪个页面代码被用来编码这个DOC文档?

问题是,我无法弄清楚它们是如何编码的:无论我尝试使用哪种编码,UltraEdit的转换函数都不会纠正文本。 OpenOffice 3.2也无法正确显示内容(猜测Windows-1252)。

下面是一个例子,希望有人知道什么pagecode是:

“lÕAssemblŽegŽnŽrale”,而不是 “L'Assemblée兴业”

感谢您的任何提示。

回答

0

Greenstone数字图书馆http://www.greenstone.org/提供了包括编码检测在内的字文档的很好的文本提取。

+0

我应该补充一点,我只会在一堆数量很大的时候使用绿宝石。 – Stephen 2010-03-03 20:07:26

0

在服务器模式下运行msword为您提供了一系列脚本选项 - 我确定检测编码是可能的。

+0

感谢您的指点。 – Gulbahar 2010-03-05 12:22:12

相关问题