2012-01-28 27 views
3
  • 有没有办法在上传文档时执行OCR?Php - 上传文档,docx,pdf - 提取所有内容

  • 我们可以索引整个文档吗?

  • 可以搜索引擎索引整个文件吗?即使用户需要付费查看完整文档?

  • 是否可以将文档显示为预览,只有选定的摘录可见,其余部分模糊且文档格式仍然可见?

我一直试图找到简单的解决方案,使用简单的PHP函数或东西似乎不会像火箭科学来完成这些问题。但在我看来,我看到有人在谈论ApachePOI和Solr Cell以及我不知道的所有这些服务器命令。对于最后一个问题,我只能弄清楚我们可以使用PHPGD并生成带有模糊内容的图像,但如果文档中有格式化的文本,图像和表格等,我不确定如何使其工作。

所以,如果有人有简单的解决方案,或者甚至复杂的解决方案buts with EASY instructions,那么这些都可以。就像“为noobs提取php文件内容”,这将从a-b-c开始。

预先感谢您!

+2

这里有太多可以涵盖一个问题的方法。你应该为每个单独的部分提出一个单独的问题。 – Polynomial 2012-01-28 22:17:58

+0

是否有符合所有需求的标牌解决方案?就像一个简单的comtent提取技术,将完成这一切?除了最后一个课程问题,但这不是主要问题,可以忽略 – salmanhijazi 2012-01-28 22:19:46

+2

不会。你会很幸运找到一个能够同时覆盖多个这样的库的库,特别是因为你问的是多个库文件格式。 – Polynomial 2012-01-28 22:20:15

回答

1

Zend_Search_Lucene包含一些代码来读取docx文件,该文件将在PHP中运行。

对于PDF和doc,您可以使用命令行工具来提取纯文本内容,如catdoc或pdftotext。如果你四处搜索,你可以在那里找到大多数文件格式的这种工具。它们通常由大多数分发包装。

从原始文本格式,您可以将其提供给任何全文搜索引擎。

0
  • 有没有办法在上传文件时执行OCR?

当然,OCR适用于任何图像数据。 OCR组件确实存在,只需使用一个。

  • 我们可以索引整个文档吗?

我不能告诉你,如果“我们”可以,但我可以索引文件。您只需要一个文档,一个索引和一个例程来索引文档。

  • 可以搜索引擎索引整个文件吗?即使用户需要付费查看完整文档?

这取决于文档格式。如果文档受到保护并且索引器无法完全访问它,则无法将其索引到全部位置。另一方面,如果指数能够规避保护,它可以将其索引,但在某些法律领域可能会有法律问题。从技术上讲,这不应该是一个问题。

  • 可以在文档与只有选择摘录可见,其余的模糊与文档仍然可见的格式显示为预览?

为什么不呢?我的意思是,如果你有这样的显示例程这样做,那么交易是什么?

如果您的问题是您不熟悉所使用的技术,我建议您与熟悉的人联系并向您解释。对于某些任务组件应该存在,但是,你需要将它们结合在一起。您的问题涵盖太多,以至于开箱即用解决方案。

0

多项式正确。你不会在一个地方找到这一切。即使是OCR也需要多个模块才能正常工作,而且这些模块都不会完全免费。如果你想要合理的OCR,那么你将需要使用商业引擎。

您将需要一个Word DOC/DOCX TIFF转换器以及一个PDF转换为TIFF转换器,或者您需要购买类似ABBYY FineReader SDK的东西来执行OCR,这不会便宜,但一定会做得更好Tesseract OCR。

索引和搜索可能是使用ApachePOI和Solr Cell的简单方法,但模糊预览需要一些自定义编码。

该项目将不容易或便宜。

+0

对于Word Doc/Docx to Tiff可以使用http://www.convertapi.com。请注意@Hakre。 – Tomas 2012-01-31 19:55:22