Marklogic：独特单词数

我有以下XML结构： -Marklogic：独特单词数

<Root> 
<text> 
Marklogic is a good big data tool. Right now I am exploring Marklogic. 
</text> 
</Root>

现在我想算的唯一字（如Marklogic- 2倍，BIG-1时，数据-1时间等的发生）。我通过使用fn:count()来实现此目的，但在数据库较大的情况下，fn:count()太慢。

是否有任何其他优化的方式来实现这一目标？（与索引相关的东西）

来源

2012-10-16 Puneet Pant

http://stackoverflow.com/questions/25403223/counting-all-unique-words-in-an-unstructured-document-using-index-data –

根据http://docs.marklogic.com/guide/search-dev/lexicon#chapter您可以启用单词词典并使用cts:words。

来源

2012-10-16 15:11:29 mblakele

我们检查了这个文档，但没有找到任何方法得到个人字数。我们可以通过启用单词词典来获得所有独特的单词，但我们的目的是为这些单词词典获得单词计数。我们也尝试过xdmp：估计，但它返回了片段数。所以在上面的示例XML文件中，我们将“Marklogic”单词计为“1”，因为它在一个片段中出现两次，所以应该是“2”。我们仍然坚持请帮助。 –

@PuneetPant你可以使用'item-frequency'选项来获取元素数量，而不是使用'fragment-frequency'，这是默认值。 – wst

Marklogic：独特单词数

回答

相关问题