2013-01-23 67 views
5

我为新闻网站工作,将所有故事存储为XML。我知道,不是最好的方式,但它是这样。我想要做的是能够从网站上搜索XML文件。目前我们的搜索功能都是Google提供的(它只搜索Google已经抓取的任何内容)。搜索或索引XML文件

我一直在想的是使用Grep,哪种工作正常,但可能不会扩大太多。另一种将花费更多工作量的方式,但将工作方式更好的方法是将部分XML存储在关系数据库中。

考虑到我们后端的设置方式,迁移到不同的存储模式需要很长时间,所以暂时这就是我们必须处理的。想法?

回答

3

添加一些缓存可能会帮助您扩展grep想法。但是,您可能会考虑一种解决方案,该解决方案不仅可以帮助解决今天的问题,还可以让您明天接近更好的解决方案。也许设计一个更好的解决方案并逐步实施它将会有所斩获。

0

如果您承诺使用XML,我会建议使用原生XML数据库解决方案,如Berkeley DBXML或eXist-db。它们都允许你向它们中发射xquery。 eXist还实现了全文搜索,而不是DBXML,但后者在检索数据时更快。

1

我也建议使用像BaseX(.org)这样的XML数据库系统,因为它非常快。我建议将每篇文章存储在一个单独的文件中。 BaseX支持XQuery 3.0以及全文,更新工具...