2017-10-11 95 views
5

我试图用mongodb聚合查询来连接($查找)两个集合,然后不同计数连接数组中的所有唯一值。 *注意:我不一定知道metaDataMap数组中的字段(键)。而且我不想统计或包含Map中可能存在或可能不存在的字段。所以这就是聚合查询看起来像这样的原因。Mongodb聚合管道大小和速度问题

所以我的两个集合是这样的:事件 -

{ 
"_id" : "1", 
"name" : "event1", 
"objectsIds" : [ "1", "2", "3" ], 
} 

对象

{ 
"_id" : "1", 
"name" : "object1", 
"metaDataMap" : { 
        "SOURCE" : ["ABC", "DEF"], 
        "DESTINATION" : ["XYZ", "PDQ"], 
        "TYPE" : [] 
       } 
}, 
{ 
"_id" : "2", 
"name" : "object2", 
"metaDataMap" : { 
        "SOURCE" : ["RST", "LNE"], 
        "TYPE" : ["text"] 
       } 
}, 
{ 
"_id" : "3", 
"name" : "object3", 
"metaDataMap" : { 
        "SOURCE" : ["NOP"], 
        "DESTINATION" : ["PHI", "NYC"], 
        "TYPE" : ["video"] 
       } 
} 

我的结果是

{ 
_id:"SOURCE", count:5 
_id:"DESTINATION", count: 4 
_id:"TYPE", count: 2 
} 

我到目前为止是这样的:

db.events.aggregate([ 
{$match: {"_id" : id}} 

,{$lookup: {"from" : "objects", 
     "localField" : "objectsIds", 
     "foreignField" : "_id", 
     "as" : "objectResults"}} 

,{$unwind: "$objectResults"} //Line 1 
,{$project: {x: "$objectResults.metaDataMap"}} //Line 2 


,{$unwind: "$x"} 
,{$project: {"_id":0}} 

,{$project: {x: {$objectToArray: "$x"}}} 
,{$unwind: "$x"} 

,{$group: {_id: "$x.k", tmp: {$push: "$x.v"}}} 

,{$addFields: {tmp: {$reduce:{ 
input: "$tmp", 
initialValue:[], 
in:{$concatArrays: [ "$$value", "$$this"]} 
    }} 
}} 

,{$unwind: "$tmp"} 
,{$group: {_id: "$_id", uniqueVals: {$addToSet: "$tmp"}}} 

,{$addFields: {count: {"$size":"$uniqueVals"}}} 
,{$project: {_id: "$_id", count: "$count"}} 
]); 

我的问题是我标记第1行& 2.上述工作,但在metaDataMap数组字段(objectsResults.metaDataMap)25,000个值需要约50秒。所以例如在对象1的metaDataMap SOURCE数组中有25,000个值。这是缓慢的方式。我的另一个更快的方式做到这一点是更换线路1 & 2:

,{$project: {x: "$objectResults.metaDataMap"}} //Line 1 
,{$unwind: "$x"} //Line 2 

这是更快的方式(不足3秒),但只能在具有〜10,000种或更少的数据集运行。任何更高的内容,我会收到一个错误,说“超过最大文档大小”。

请帮忙!

+0

可以在“各种阵列中的25,000个项目”中添加更多的描述? –

+1

只是一个想法。也许你可以尝试改变你的'metaDataMap'结构为''metaDataMap“:[”k“:{”SOURCE“,”v“:[”ABC“,”DEF“]} ...]'并插入一个' '$ lookup'之后的$ map'阶段。例如'{“$ project”:{“data”:{“$ map”:{“input”:“$ objectResults.metaDataMap”,“as”:“resultom”,“in”:{“$ map” {“input”:“$$ resultom”,“as”:“resultim”,“in”:{“k”:$$ $$。 $ resultim.v“}}}}}}}}'。我相信你可以通过这种方式获得大小,并且放松速度应该更快。 – Veeram

+0

但我不会得到一个明显的数量与大小。我会吗?我需要重复v值。 – Deckard

回答

0

如果你能够改变的object收集您的架构设计,包括parent_id场,你可以立即删除您的管道的第4个阶段(第一$match$lookup$unwind$project)。这会让关注Line 1Line 2消失。

例如,object集合中的文件看起来像:

{ 
    "_id": "1", 
    "name": "object1", 
    "metaDataMap": { 
    "SOURCE": [ 
     "ABC", 
     "DEF" 
    ], 
    "DESTINATION": [ 
     "XYZ", 
     "PDQ" 
    ], 
    "TYPE": [ ] 
    }, 
    "parent_id": "1" 
} 

因此你不需要昂贵$lookup$unwind。第4个阶段,然后可以替换为:

{$match: {parent_id: id}} 

基于这个想法,我做的管道,这就造成了进一步优化:

db.objects.aggregate([ 
    {$match: {parent_id: id}} 
    ,{$project: {metaDataMap: {$filter: {input: {$objectToArray: '$metaDataMap'}, cond: {$ne: [[], '$$this.v']}}}}} 
    ,{$unwind: '$metaDataMap'} 
    ,{$unwind: '$metaDataMap.v'} 
    ,{$group: {_id: '$metaDataMap.k', val: {$addToSet: '$metaDataMap.v'}}} 
    ,{$project: {count: {$size: '$val'}}} 
]) 

这将输出:

{ "_id": "TYPE", "count": 2 } 
{ "_id": "DESTINATION", "count": 4 } 
{ "_id": "SOURCE", "count": 5 }