2012-10-16 35 views
1

我有以下XML结构: -Marklogic:独特单词数

<Root> 
<text> 
Marklogic is a good big data tool. Right now I am exploring Marklogic. 
</text> 
</Root> 

现在我想算的唯一字(如Marklogic- 2倍,BIG-1时,数据-1时间等的发生)。我通过使用fn:count()来实现此目的,但在数据库较大的情况下,fn:count()太慢。

是否有任何其他优化的方式来实现这一目标? (与索引相关的东西)

+0

http://stackoverflow.com/questions/25403223/counting-all-unique-words-in-an-unstructured-document-using-index-data –

回答

0

根据http://docs.marklogic.com/guide/search-dev/lexicon#chapter您可以启用单词词典并使用cts:words

+1

我们检查了这个文档,但没有找到任何方法得到个人字数。我们可以通过启用单词词典来获得所有独特的单词,但我们的目的是为这些单词词典获得单词计数。我们也尝试过xdmp:估计,但它返回了片段数。所以在上面的示例XML文件中,我们将“Marklogic”单词计为“1”,因为它在一个片段中出现两次,所以应该是“2”。我们仍然坚持请帮助。 –

+0

@PuneetPant你可以使用'item-frequency'选项来获取元素数量,而不是使用'fragment-frequency',这是默认值。 – wst