2015-11-09 110 views
-2

我有如下情况。需要最好的数据库来处理大量的数据

每天我都会从不同的在线商店和内容提供商获得256 GB的产品信息(例如CNET数据源)。 这些信息可以是CSV,XML和TXT文件。文件将被解析并存储到MongoDB中。 后面的信息将被转换为可搜索的和索引到Elasticsearch。

所有的256 GB信息每天都没有不同。大多数70%的信息都是相同的,价格,尺寸,名称等方面的信息会经常更改。 我正在处理文件usig PHP。

我的问题是

  1. 解析庞大的数据
  2. 映射领域内的DB(例如,标题是不是所有onlineshops冠军。他们会给字段名称作为短标题或其它名称)
  3. 每天增加GB信息。如何存储所有和处理。 (可能是Bigdata,但不知道如何使用它)
  4. 用大量数据快速搜索信息。

请建议我适合这个问题的数据库。

回答

0
  1. 分析海量数据 - Spark是最快的分布式解决方案为您的需要,还以为你有70%相同的数据只是用于比较的重复,你反正要处理它,在这里你可以做映射的都管不好。

  2. 数据存储,如果你在这里做任何的聚集,我建议使用HBase的/黑斑羚,如果您使用卡桑德拉

  3. 对于serching什么产品的每一行,重要的是比Lucene的更快,因此使用Solr或Elasticsearch无论你认为舒适,都是好的。

+0

谢谢Amey ...我在探索可能性 – Bala