我在寻找处理数据的最佳实践。所以,这就是我迄今为止所获得的:1.000.000个类型为“A”的节点。每个“A”节点可连接到1-1000个“B”型节点和1-10个“C”型节点。处理大数据集(neo4j,mongo db,hadoop)
我已经编写了一个RESTful服务(Java,Jersey)来将数据导入到neo4j图中。在导入节点“A”(只有节点,带有ID,没有其他数据)后,我注意到neo4j db已经增长到〜2.4GB。
在neo4j中存储附加字段(名称,描述,...)是一个好主意吗?或者我应该设置一个mongoDB/hadoop来使用键/值组合来访问数据?
在我看来,100万个节点/几GB不足以保证进入Hadoop。 –