bigdata

0热度

1回答

我正在处理一个产生大量规则的巨大数据集。我只需要高升力低支持规则，但我越来越超过1500万（这是设置min/maxlen和清理我的源数据后）我现在要做的是创建一个头几百万，并从所有规则中减去。我的希望是，最终剩下的只是桶的底部。代码： basket_rules2 <- apriori(ttk, parameter = list(sup = 0.03, conf = 0.25, target="

0热度

1回答

在Hadoop中，复制因子与群集中节点数量之间的关系是什么？

例如，如果复制因子是3，并且群集中有2个节点。那么将会创建多少个副本？他们将如何放置？

2热度

2回答

在配置单元中的字符串中的某些字符后提取文本

我对每一行都有多个ID，我想提取每行中某些文本之后的数字。以下可能是我在id列中的值。 test123; tghy876; 8906; TT-1234 best123; tghy8656; 88706; TT-5678 我希望输出只返回tt-之后的数字，所以我的输出应该如下。什么蜂房代码应该被用来实现这一目标？

1热度

2回答

什么是星系火花？

谱系如何帮助重新计算数据？例如，我有几个节点每个计算数据30分钟。如果15分钟后失败，我们可以重新计算在15分钟内处理的数据，而不用再给15分钟吗？

0热度

2回答

Cassandra用于存储高IO的用户数据的替代方案

我们正在寻找具有以下标准的技术堆栈。我们将有大约1000万客户。每位客户将拥有大约20MB的数据。每个用户的数据将会每天更新。我们需要将数据存储超过六个月。我们可能需要在六个月的时间范围内随时查询数据。目前我们正在考虑使用Cassandra，但Cassandra中每个节点的最大存储限制应该小于3TB，我们正在寻找其他Cassandra的替代方案。

0热度

1回答

在猪得到错误为'错误编译运算符POLocalRearrange'

我正在练习克卢代拉纱VMware Player（非商业用途）。我在猪脚本是， a1 = load '/user/training/my_hdfs/id' using PigStorage('\t') as(id:int,name:chararray,desig:chararray); a2 = load '/user/training/my_hdfs/trips' using PigStorag

1热度

2回答

如果我想使用历史数据预测未来购物在线购物，我是否需要数据科学或数据分析或大数据？

我想学会预测未来的事件，例如......能够使用过去二十年的飞机失事数据预测2018年的飞机失事数......或者......预测有多少发球台带有justin beibers脸的衬衫将于2018年销售，具体取决于previuos数据的粉丝数量..........或者如果他们决定以相同的精确度发布多少个iPhone 8和samsungs s9，日期....预测有点准确的整个销售市场.....这样的东

0热度

1回答

动态检索存在于Solr文档中的所有字段

是否可以动态检索存在于一组Solr文档中的所有字段并仍保持合理的性能？这里的最终目标是为用户动态填充数字字段列表，以便对其当前查询进行排序。在一个完美的世界中，我希望能够让这个列表包含用户查询返回的文档中存在的所有数字字段。但是，如果这是不可能实现的，我将通过luke处理程序用数字字段填充列表。不幸的是，似乎luke处理程序为整个集合返回字段，但不能仅限于当前查询。我是Solr的新手，所以任

0热度

1回答

Hive与表中数据的比较

我进入DW测试并需要比较源数据到目标数据。源数据存储在hive/RDBMS中，而目标数据加载到Hbase中。我是Hbase的新手。任何人都可以帮助我采取我可以采取的方法。我正在寻找的是与“MINUS”类似的功能。可能吗？

0热度

1回答

使用Hadoop查询github数据

我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据（4-5 TB）注入HDFS？另外，他们的数据库是实时的。是否有可能使用诸如pig，hive，hbase之类的工具来处理hadoop中的实时数据？