我在Solr中创建了一个自定义Tokenizer,用于查找命名实体。我希望能够使用这些信息来填充lucene/solr文档中的单独字段。Solr:从Tokenizer填充单独的字段
作为一个例子,我想填充一个名为“locations”的多值字段,其中包含从文本中提取的所有位置名称。要提取位置,首先将文本标记为单词,并确定哪些标记是位置。在这个过程之后,我想为标记器发出标记,但也要填充从文本中提取的所有位置名称的“位置”字段。
根据我所做的研究,无法从Tokenizer或TokenizerFactory访问SolrDocument对象,因此无法从此处填充字段。
我到目前为止提出的解决方案是创建一个自定义的UpdateRequestProcessorFactory来处理文本并提取字段,然后Tokenizer处理文本AGAIN以获取令牌。我想找到一种方法来完成这项工作,并只处理一次文本。