Q

需要最好的数据库来处理大量的数据

2015-11-09 110 views -2 likes

-2

我有如下情况。需要最好的数据库来处理大量的数据

每天我都会从不同的在线商店和内容提供商获得256 GB的产品信息（例如CNET数据源）。这些信息可以是CSV，XML和TXT文件。文件将被解析并存储到MongoDB中。后面的信息将被转换为可搜索的和索引到Elasticsearch。

所有的256 GB信息每天都没有不同。大多数70％的信息都是相同的，价格，尺寸，名称等方面的信息会经常更改。我正在处理文件usig PHP。

我的问题是

解析庞大的数据
映射领域内的DB（例如，标题是不是所有onlineshops冠军。他们会给字段名称作为短标题或其它名称）
每天增加GB信息。如何存储所有和处理。（可能是Bigdata，但不知道如何使用它）
用大量数据快速搜索信息。

请建议我适合这个问题的数据库。

2015-11-09 Bala

A

回答

0

分析海量数据 - Spark是最快的分布式解决方案为您的需要，还以为你有70％相同的数据只是用于比较的重复，你反正要处理它，在这里你可以做映射的都管不好。
数据存储，如果你在这里做任何的聚集，我建议使用HBase的/黑斑羚，如果您使用卡桑德拉
对于serching什么产品的每一行，重要的是比Lucene的更快，因此使用Solr或Elasticsearch无论你认为舒适，都是好的。

2015-11-09 06:40:50

+0

谢谢Amey ...我在探索可能性 – Bala

相关问题