我想在Lucene中索引100万个html文档。我需要在一个Lucene文档中索引几个html文件。最近,我想在搜索响应中知道原始的html文档。Lucene索引html文档
所以,例如我有:
1.home.html
2.history.html
3.about.html
4.home2.html
...
我想要在同一Lucene的文档中索引1,2和3。然后,如果我搜索任何文本,我想知道原始文档(家庭,历史或关于)。
我一直在互联网上搜索,我发现Lucene有效载荷。所以我一直在想所有条款索引原始文件的网址。这是一个好的解决方案吗?表演会没事的?
非常感谢您的帮助。
您只存储html文件的名称或html文件的全部内容? –
有效载荷可能会提供可接受的解决方案。一个好的解决方案是将页面存储为单独的文档。为什么你想在同一个文档中索引这三个页面? – femtoRgon
我正在存储文档的全部内容,并且还希望存储文档的名称。我已经实现了分离的页面解决方案,并且它完美地工作,但我需要像前面所说的那样在组中搜索(例如:home,history和about),我发现的唯一方法是使用Payload。 – Hibernator