2012-09-06 39 views
8

在我的MongoDB藏书我有结构如下文件:MongoDB的聚合:如何返回数组的唯一匹配的元素

/* 0 */ 
{ 
    "_id" : ObjectId("50485b89b30f1ea69110ff4c"), 

    "publisher" : { 
    "$ref" : "boohya", 
    "$id" : "foo" 
    }, 
    "displayName" : "Paris Nightlife", 
    "catalogDescription" : "Some desc goes here", 
    "languageCode" : "en", 
    "rating" : 0, 
    "status" : "LIVE", 
    "thumbnailId" : ObjectId("50485b89b30f1ea69110ff4b"), 
    "indexTokens" : ["Nightlife", "Paris"] 
} 

我执行下面的正则表达式查询发现具有一个一个IndexToken开始与“所有文件帕”:

{ "indexTokens" : { "$regex" : "^Par" , "$options" : "i"}} 

如果我只选择indexTokens场要返回这样的:

{ "indexTokens" : 1} 

产生的DBOBJECT是

{ "_id" : { "$oid" : "50485b89b30f1ea69110ff4c"} , "indexTokens" : [ "Nightlife" , "Paris"]} 

我想获得只有令牌/标签相匹配的正则表达式(我don0t关心在这一点上检索文档,我也不需要的所有标签匹配的文档)

这是在MongoDB v2.2下提供的新聚合框架的情况。 ?

如果是的话我怎么修改我的查询,使实际结果会是什么样子:

{“indexTokens”:“巴黎”,“天堂河”,“芭玛”,等...] }

奖金问题(你有codez):我如何使用Java驱动程序?

现在我的Java看起来像:

DBObject query = new BasicDBObject("indexTokens", java.util.regex.Pattern.compile("^"+filter+"", Pattern.CASE_INSENSITIVE)); 
    BasicDBObject fields = new BasicDBObject("indexTokens",1); 
    DBCursor curs = getCollection() 
        .find(query, fields) 
        .sort(new BasicDBObject("indexTokens" , 1)) 
        .limit(maxSuggestionCount); 

THX :)

编辑:

按你的答案我修改了JAVA代码如下:

BasicDBObject cmdBody = new BasicDBObject("aggregate", "Book"); 
    ArrayList<BasicDBObject> pipeline = new ArrayList<BasicDBObject>(); 

    BasicDBObject match = new BasicDBObject("$match", new BasicDBObject("indexTokens", java.util.regex.Pattern.compile("^"+titleFilter+"", Pattern.CASE_INSENSITIVE))); 
    BasicDBObject unwind = new BasicDBObject("$unwind", "$indexTokens"); 
    BasicDBObject match2 = new BasicDBObject("$match", new BasicDBObject("indexTokens", java.util.regex.Pattern.compile("^"+titleFilter+"", Pattern.CASE_INSENSITIVE))); 
    BasicDBObject groupFilters = new BasicDBObject("_id",null); 
    groupFilters.append("indexTokens", new BasicDBObject("$push", "$indexTokens")); 
    BasicDBObject group = new BasicDBObject("$group", groupFilters); 

    pipeline.add(match); 
    pipeline.add(unwind); 
    pipeline.add(match2); 
    pipeline.add(group); 

    cmdBody.put("pipeline", pipeline); 



    CommandResult res = getCollection().getDB().command(cmdBody); 
    System.out.println(res); 

哪个输出

{ "result" : [ { "_id" : null , "indexTokens" : [ "Paris"]}] , "ok" : 1.0} 

这是天才!

非常感谢!

回答

10

你可以用2.2聚合框架来做到这一点。像这样的东西;

db.books.runCommand("aggregate", { 
    pipeline: [ 
     { // find docs that contain Par* 
      $match: { "indexTokens" : { "$regex" : "^Par" , "$options" : "i"}}, 
     }, 
     { // create a doc with a single array elemm for each indexToken entry 
      $unwind: "$indexTokens" 
     }, 
     { // now produce a list of index tokens 
      $group: { 
       _id: "$indexTokens", 
      }, 
     }, 
    ], 
}) 

或者,如果你真的想要数组没有文档,这可能更接近你后面的内容;从卷云的响应

db.books.runCommand("aggregate", { 
    pipeline: [ 
     { // find docs that contain Par* 
      $match: { "indexTokens" : { "$regex" : "^Par" , "$options" : "i"}}, 
     }, 
     { // create a doc with a single array elemm for each indexToken entry 
      $unwind: "$indexTokens" 
     }, 
     { // now throw out any unwind's that DON'T contain Par* 
      $match: { "indexTokens": { "$regex": "^Par", "$options": "i" } }, 
     }, 
     { // now produce the list of index tokens 
      $group: { 
       _id: null, 
       indexTokens: { $push: "$indexTokens" }, 
      }, 
     }, 
    ], 
}) 
+0

您可以将其作为第二个解决方案添加到您的原始答案中。这样,人们不会为什么会有两个答案:) – Sammaye

+0

好的。做到这一点.. – cirrus

+0

感谢你们两个人,它像一个魅力。我添加了一个答案来显示我是如何在JAVA中完成的(我没有最新的驱动程序,所以我不能在DBCollection上使用aggregate()方法。 – azpublic

2

大厦,我建议做$unwind第一,避免冗余$match。例如:

db.books.aggregate(
    {$unwind:"$indexTokens"}, 
    {$match:{indexTokens:/^Par/}}, 
    {$group:{_id:null,indexTokens:{$push:"$indexTokens"}} 
}) 

您如何在Java中做到这一点?您可以使用MongoDB v2.9.0驱动程序的DBCollection.aggregate(...)方法。每个管道运营商,例如。 $unwind$match,对应于DBObject对象。

+1

实际上,我不认为$ match是多余的。 $ unwind就是它必须在RAM中创建一大批文档,并且希望尽早减少这些文档。第一个$匹配确保我们只处理文档,甚至在文档中包含Par * indexTokens在我们解开它们之前,第二个$匹配然后将其设置为我们想要的那个,记住,你想早点得到你的$匹配以减少管线体积 – cirrus

+1

你是对的,匹配文档,展开数组,然后再次匹配以清除与正则表达式不匹配的文档。 – slee

相关问题