我试着去设计,可以定期从外部API“下载”大量数据的系统..最佳途径
此用户可以有大约60万条我需要的数据记录,然后每隔一小时左右核对两个数据集。
我想最终在后台任务中使用python或ruby做这件事,但我很好奇如何存储数据。
是否有可能/好主意将所有内容存储在一个记录中散列为json vs单独拷贝每个记录?
这将是很好的能够索引或搜索数据没有任何失败,所以我想知道什么是最好的实现内存明智。
例如,如果用户有500,000条推文记录,并且我想存储所有这些记录,这会是更好的实施方式吗?
一条记录为JSON => user_1 = {id:1 twt:“blah”},{id:2 twt:“blah”},..... {id:600,000 twt:“blah”}
VS
多条记录=>
ID:1 outside_id = 1 TWT: “嗒嗒”
ID:2 outside_id = 1 TWT: “嗒嗒”
ID:3 outside_id = 1 twt:“blah”
我是c无论如何我会发现每种方法的内存密集程度如何,或者什么是最佳解决方案。
记录很复杂,每个记录可能有40个属性,我想存储。
也可以MySQL或MongoDB更快的复制/存储解决方案吗?
1.是的,探索性分析可能会涉及收集每条记录的数据。 2.是报告是理想的3.两者实际上......这使我意识到两种模式可能是最佳的......一种设计为快速获取数据,另一种在内存中快速处理4.理想的基础设施可轻松扩展5。模式将被标准化6.我真的只是寻找最快的解决方案来测试 – ChrisWesAllen