2015-02-10 65 views
-1

我的任务是创建一个搜索系统,帮助用户浏览多个1000多页的pdf文件。但是,这些文件首先必须放在MySQL DB上。我目前遇到的问题是如何将这些PDF文件存储在数据库中,并将相关的PDF标题分配给数据库。将PDF文件存储在MySQL服务器上智能

实施例:

在不同的表中分别在DB添加各零件/页眉/组/分段。

这一切都必须手动输入?记住,我们正在讨论10万页的PDF页面。

感谢

+1

您不想将PDF存储在数据库中。重新思考你的方法。 – jurgemaister 2015-02-10 08:41:11

+0

文件属于文件系统,数据库用于数据。如果必须,将pdf存储在文件系统上并将路径存储在数据库中。 – runDOSrun 2015-02-10 08:54:11

回答

1

你会更好地存储在数据库中的一些元数据,并存储PDF文件的位置。

即所谓的 '文件' 可能有以下字段表: ID,路径,关键字,类别

的路径将是:/some/location/to/my/pdf/file.pdf

关键字可能是; 'pdf1,什么是pdf,一些搜索文字'

这将允许您存储PDF文件。

或者,您可以使用类似Google的东西 - 它们允许您使用其搜索技术。它曾经是一个'谷歌黄色框'的形式,但我相信它现在是他们的云东西的一部分!

HTH

+0

我的问题是,这些pdf主要由外部客户搜索,他们并不总是知道“x,y,z”他们在寻找什么。我的搜索系统必须能够将用户指向他们正在寻找的相关pdf/pdf页面的方向。这些文件也定期更新,通常每6个月或更少意味着标准的PDF链接几乎没有生存能力 – 2015-02-10 09:25:55

+0

关于不同的版本,我会建议添加另一列,版本。这样可以确保您为审计目的保留PDF的历史记录。 – 2015-02-10 09:31:34

+0

在搜索内容方面;有几个“pdf2text”库。但我不确定这是你想要的方法,因为你将所有的数据存储在数据库中。我肯定会建议看看谷歌搜索设备:) – 2015-02-10 09:34:09

相关问题