刮网址在MongoDB中和更新记录与文字刮掉

我有维基百科文章的序列化采集编辑，我流和存储与node.js中来的MongoDB他们是这样的：刮网址在MongoDB中和更新记录与文字刮掉

{ "time" : 1338144181565, "page" : "Pavol Országh Hviezdoslav", "url" : "http://es.wikipedia.org/w/index.php?diff=56528327&oldid=56521690", "delta" : -60, "_id" : ObjectId("4fc275b5cd08c22d31000001") } 
{ "time" : 1338144183265, "page" : "Indian Premier League", "url" : "http://en.wikipedia.org/w/index.php?diff=494656175&oldid=494656151", "delta" : -12, "_id" : ObjectId("4fc275b7cd08c22d31000002") } 
{ "time" : 1338144187346, "page" : "Dizz Knee Land", "url" : "http://en.wikipedia.org/w/index.php?diff=494656189&oldid=494656176", "delta" : -84, "_id" : ObjectId("4fc275bbcd08c22d31000003") }

的URL显示在编辑的区别，我会刮去用python脚本编辑的文本，然后会想用一个新的领域“edit_text”也可能是IMG更新记录SRC用于从每个维基百科文章主图像（“IMAGE_URL”）（如果有的话）。

的想法是将更新后的数据最终流输出到web应用程序，显示在与所述页面标题和图像（如果后者存在）的上下文中，编辑的文本。

它是如何将有可能通过保持这一切一样集合中要做到这一点，或者倒不如存储在一个新的集合的结果？

来源

2012-05-27 roy

我会刮掉文件的另一集的内容存储，因为有几个原因：

目前收集与编辑的事件仅是附加的，这意味着你永远不会有任何更新。这使得它闪电般快速存储。刮取的文档集合可能包含数量级较大的文档。
这两种类型的文件是两个完全不同的文件类型，因此真的不一样集合中的归属。它使得索引不必要的复杂，你可能会不得不创建更多包含大量不相关信息的索引。

来源

2012-05-28 07:46:31 Derick

刮网址在MongoDB中和更新记录与文字刮掉

回答

相关问题