2010-06-30 26 views
0

下面是基本问题:我有大约10,000个包含数据块的文档。每个块都被编号并且还有一个伴随图像。我需要以某种方式将这些单独的块存储为一个数据库作为图像(文本将是伟大的,但阅读下面的注释),没有编号。如何将word文档/ pdf /图像的部分(每页多页)作为单独的图像/ word文档/ pdf进行提取?

我可以通过使用### QUESTIONSTART ###,### QUESTIONEND ###或其他方法让打字员标记块的开始和结束。 我正在尝试将该文档转换为大图像,查找这些标签,将标签之间的部分作为图像提取出来,然后转到下一个块。

我一直在寻找一些API,我想我一定会裁剪图像,一旦我找出如何获得每个开始/结束标记的坐标。有什么建议么?我不想写一个像素匹配器必须去O(块的数量* n^2)

注意:这些块包含复杂的方程式/数学类型的东西,因此图像。我没有$$让1000名打字员在TeX上接受过培训并重新输入整个交易。 OCR不会削减它。

回答

0

我不明白你所有的问题,但在我的印象中,Tika可以帮助你。

+0

Tika目前只做文本/ MIME类型的解析。不知道我是否可以用它来吐出图像。 – kdawg 2010-06-30 11:29:04

0

如果你能有打字员添加组标记10000个证件,为什么不能打字员

  • 打开Word文档
  • 复制从Word文档
  • 图像的图像粘贴到画图
  • 将图像保存到磁盘?

你可以想出一个对你和你的打字员有意义的图像命名方案。

然后,您可以用程序从磁盘驱动器收集图像并将它们加载到数据库中。