我已经收集了来自一个音乐事件的10k条推文。你可以想象有很多转推。为了做适当的分析,我想统计每个转推,然后删除转推或删除重复。在NoSQL中我找不到方法,所以在这里寻求帮助和建议。使用MongoDB和Robomongo GUI客户端。NoSQL重复计数和删除
而且通过重复我指的是相同的文本字段中的条目
类别包括在这种类型的结构:
{
"_id" : ObjectId("53cd28ea51f4fbe9f6e04798"),
"name" : "Positivus Festival",
"screenName" : "positivus",
"text" : "RT @Valsts_policija: Tuvojas @positivus , tādēļ esam sagatavojuši septiņus drošības ieteikumus patīkamai atpūtai #Positivus110 http://t.co/…",
"time" : 1405606042.803368
}
那么重复的样子是什么?完全相同的文字? –
是的,文本字段是相同的。 Failes提到,对不起 – andris