0
什么是跨富媒体文件进行全文搜索的最佳方式?我试图实现一个系统,用户可以上传随机文件(.doc,.pdf,.jpg,...)并下线,他可以根据文件内容或元数据搜索它们。全文搜索与富媒体文件
我将不胜感激关于如何建立这个一些想法。
PS - 我开始寻找到Lucene和Nutch的,但我觉得他们做的比什么,我需要更多的方式。
谢谢。
什么是跨富媒体文件进行全文搜索的最佳方式?我试图实现一个系统,用户可以上传随机文件(.doc,.pdf,.jpg,...)并下线,他可以根据文件内容或元数据搜索它们。全文搜索与富媒体文件
我将不胜感激关于如何建立这个一些想法。
PS - 我开始寻找到Lucene和Nutch的,但我觉得他们做的比什么,我需要更多的方式。
谢谢。
你应该看看提卡(http://lucene.apache.org/tika/),这是一种用于检测和提取元数据和结构化文本的工具包。