MongoDB的聚合：如何返回数组的唯一匹配的元素

在我的MongoDB藏书我有结构如下文件：MongoDB的聚合：如何返回数组的唯一匹配的元素

/* 0 */ 
{ 
    "_id" : ObjectId("50485b89b30f1ea69110ff4c"), 

    "publisher" : { 
    "$ref" : "boohya", 
    "$id" : "foo" 
    }, 
    "displayName" : "Paris Nightlife", 
    "catalogDescription" : "Some desc goes here", 
    "languageCode" : "en", 
    "rating" : 0, 
    "status" : "LIVE", 
    "thumbnailId" : ObjectId("50485b89b30f1ea69110ff4b"), 
    "indexTokens" : ["Nightlife", "Paris"] 
}

我执行下面的正则表达式查询发现具有一个一个IndexToken开始与“所有文件帕”：

{ "indexTokens" : { "$regex" : "^Par" , "$options" : "i"}}

如果我只选择indexTokens场要返回这样的：

{ "indexTokens" : 1}

产生的DBOBJECT是

{ "_id" : { "$oid" : "50485b89b30f1ea69110ff4c"} , "indexTokens" : [ "Nightlife" , "Paris"]}

我想获得只有令牌/标签相匹配的正则表达式（我don0t关心在这一点上检索文档，我也不需要的所有标签匹配的文档）

这是在MongoDB v2.2下提供的新聚合框架的情况。？

如果是的话我怎么修改我的查询，使实际结果会是什么样子：

{“indexTokens”：“巴黎”，“天堂河”，“芭玛”，等...] }

奖金问题（你有codez）：我如何使用Java驱动程序？

现在我的Java看起来像：

DBObject query = new BasicDBObject("indexTokens", java.util.regex.Pattern.compile("^"+filter+"", Pattern.CASE_INSENSITIVE)); 
    BasicDBObject fields = new BasicDBObject("indexTokens",1); 
    DBCursor curs = getCollection() 
        .find(query, fields) 
        .sort(new BasicDBObject("indexTokens" , 1)) 
        .limit(maxSuggestionCount);

THX :)

编辑：

按你的答案我修改了JAVA代码如下：

BasicDBObject cmdBody = new BasicDBObject("aggregate", "Book"); 
    ArrayList<BasicDBObject> pipeline = new ArrayList<BasicDBObject>(); 

    BasicDBObject match = new BasicDBObject("$match", new BasicDBObject("indexTokens", java.util.regex.Pattern.compile("^"+titleFilter+"", Pattern.CASE_INSENSITIVE))); 
    BasicDBObject unwind = new BasicDBObject("$unwind", "$indexTokens"); 
    BasicDBObject match2 = new BasicDBObject("$match", new BasicDBObject("indexTokens", java.util.regex.Pattern.compile("^"+titleFilter+"", Pattern.CASE_INSENSITIVE))); 
    BasicDBObject groupFilters = new BasicDBObject("_id",null); 
    groupFilters.append("indexTokens", new BasicDBObject("$push", "$indexTokens")); 
    BasicDBObject group = new BasicDBObject("$group", groupFilters); 

    pipeline.add(match); 
    pipeline.add(unwind); 
    pipeline.add(match2); 
    pipeline.add(group); 

    cmdBody.put("pipeline", pipeline); 



    CommandResult res = getCollection().getDB().command(cmdBody); 
    System.out.println(res);

哪个输出

{ "result" : [ { "_id" : null , "indexTokens" : [ "Paris"]}] , "ok" : 1.0}

这是天才！

非常感谢！

来源

2012-09-06 azpublic

你可以用2.2聚合框架来做到这一点。像这样的东西;

db.books.runCommand("aggregate", { 
    pipeline: [ 
     { // find docs that contain Par* 
      $match: { "indexTokens" : { "$regex" : "^Par" , "$options" : "i"}}, 
     }, 
     { // create a doc with a single array elemm for each indexToken entry 
      $unwind: "$indexTokens" 
     }, 
     { // now produce a list of index tokens 
      $group: { 
       _id: "$indexTokens", 
      }, 
     }, 
    ], 
})

或者，如果你真的想要数组没有文档，这可能更接近你后面的内容;从卷云的响应

db.books.runCommand("aggregate", { 
    pipeline: [ 
     { // find docs that contain Par* 
      $match: { "indexTokens" : { "$regex" : "^Par" , "$options" : "i"}}, 
     }, 
     { // create a doc with a single array elemm for each indexToken entry 
      $unwind: "$indexTokens" 
     }, 
     { // now throw out any unwind's that DON'T contain Par* 
      $match: { "indexTokens": { "$regex": "^Par", "$options": "i" } }, 
     }, 
     { // now produce the list of index tokens 
      $group: { 
       _id: null, 
       indexTokens: { $push: "$indexTokens" }, 
      }, 
     }, 
    ], 
})

来源

2012-09-06 10:43:42 cirrus

您可以将其作为第二个解决方案添加到您的原始答案中。这样，人们不会为什么会有两个答案:) – Sammaye

好的。做到这一点.. – cirrus

感谢你们两个人，它像一个魅力。我添加了一个答案来显示我是如何在JAVA中完成的（我没有最新的驱动程序，所以我不能在DBCollection上使用aggregate（）方法。 – azpublic

大厦，我建议做$unwind第一，避免冗余$match。例如：

db.books.aggregate(
    {$unwind:"$indexTokens"}, 
    {$match:{indexTokens:/^Par/}}, 
    {$group:{_id:null,indexTokens:{$push:"$indexTokens"}} 
})

您如何在Java中做到这一点？您可以使用MongoDB v2.9.0驱动程序的DBCollection.aggregate(...)方法。每个管道运营商，例如。 $unwind或$match，对应于DBObject对象。

来源

2012-09-06 13:51:58 slee

实际上，我不认为$ match是多余的。 $ unwind就是它必须在RAM中创建一大批文档，并且希望尽早减少这些文档。第一个$匹配确保我们只处理文档，甚至在文档中包含Par * indexTokens在我们解开它们之前，第二个$匹配然后将其设置为我们想要的那个，记住，你想早点得到你的$匹配以减少管线体积 – cirrus

你是对的，匹配文档，展开数组，然后再次匹配以清除与正则表达式不匹配的文档。 – slee

MongoDB的聚合：如何返回数组的唯一匹配的元素

回答

相关问题