如何将word文档/ pdf /图像的部分（每页多页）作为单独的图像/ word文档/ pdf进行提取？

下面是基本问题：我有大约10,000个包含数据块的文档。每个块都被编号并且还有一个伴随图像。我需要以某种方式将这些单独的块存储为一个数据库作为图像（文本将是伟大的，但阅读下面的注释），没有编号。如何将word文档/ pdf /图像的部分（每页多页）作为单独的图像/ word文档/ pdf进行提取？

我可以通过使用### QUESTIONSTART ###，### QUESTIONEND ###或其他方法让打字员标记块的开始和结束。 我正在尝试将该文档转换为大图像，查找这些标签，将标签之间的部分作为图像提取出来，然后转到下一个块。

我一直在寻找一些API，我想我一定会裁剪图像，一旦我找出如何获得每个开始/结束标记的坐标。有什么建议么？我不想写一个像素匹配器必须去O（块的数量* n^2）

注意：这些块包含复杂的方程式/数学类型的东西，因此图像。我没有$$让1000名打字员在TeX上接受过培训并重新输入整个交易。 OCR不会削减它。

2010-06-30 kdawg

我不明白你所有的问题，但在我的印象中，Tika可以帮助你。

2010-06-30 10:44:29 Istao

Tika目前只做文本/ MIME类型的解析。不知道我是否可以用它来吐出图像。 – kdawg 2010-06-30 11:29:04

如果你能有打字员添加组标记10000个证件，为什么不能打字员

你可以想出一个对你和你的打字员有意义的图像命名方案。

然后，您可以用程序从磁盘驱动器收集图像并将它们加载到数据库中。

2010-06-30 16:00:34

回答