bigdata

-3热度

1回答

需求是使用Scala或Spark编程计算卡夫卡主题中的消息数。我对这两种编程都很陌生，所以我不确定该怎么做。任何人都可以帮我编写代码或指导我如何实现。

1热度

1回答

我需要在Stream Set管道中映射10000个列表并需要从（csv）文件向其发送数据。因此，通过提及列名称来映射流集应用程序中的每个列对于10000列来说是非常大的任务。所以任何人都可以回答什么是实现它的任何其他简单方法？或者我可以通过使用其REST API来实现它吗？在此先感谢。

0热度

1回答

查找两个不同汽车的两个地理坐标x和y是否位于同一条路上

我的数据由vehicle_ID，x和y坐标（位置），车辆速度，行驶时间组成。我们想知道哪些车在走相同的道路？这是我与1号车用ID 1数据的样本，我有70万个车辆IDS分析所以基本上我需要对我们如何才能弄清楚什么是不同的道路，以及我们如何能seprate见解从另一条路走一条路？ time vehicleID X Y speed 37081 1 13379.67 13854.

0热度

2回答

将数据流传输到S3

我正在S3中构建数据湖。因此，我想将原始数据流存储到s3中，下面是我的代码片断，我尝试了本地存储。 val tweets = TwitterUtils.createStream(ssc, None) val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText()) import

1热度

1回答

处理R中大数据的有效方法

我有一个巨大的csv文件，1.37 GB，并且在R中运行glm时，它崩溃，因为我没有分配足够的内存。你知道，经常出现的错误.. 是否有没有其他的软件包ff和bigmemory的替代品，因为他们似乎不适合我，因为我的列是一个整数和字符的混合，而且似乎与两个包我必须指定我的列是什么类型，无论是字符或整数。我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使

1热度

1回答

成群Spark2数据帧/ RDD过程

我有以下的表存储在蜂巢称为ExampleData： +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

0热度

2回答

java.lang.ArrayIndexOutOfBoundsException：在MapReduce的2错误，Hadoop的

我试图解决使用Hadoop这个问题。查找使用平均收视率前十位的企业评级。评分最高的商家将排在第一位。回想一下，review.csv文件中的第4列代表评级。我的Java代码： package bd; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import ja

2热度

1回答

点燃阿帕奇使用VS蒙戈DB使用 - 主要区别

点燃VS蒙戈DB 是什么点燃Apache和蒙戈DB之间的主要区别？是mongo db一个数据库，我们保存在磁盘中并点燃一个内存，我们保存在Ram中？你可以一起使用它们吗？如果是的话，你将如何结合他们？

-4热度

1回答

Python如何处理大数字？

我一直在使用C++，并且一直在面对大数目的问题。我已经用“寻找数百分之一”的数组解决了它，但是我想知道处理大数字的python的方法。谢谢。

0热度

3回答

Hive或HBase的报告？

我想了解用于报告目的的最佳大数据解决方案是什么？目前我把它缩小到HBase vs Hive。用例是我们有几百TB的数据，有数百个不同的文件。数据是实时的，并且一直在更新。我们需要提供最有效的报告方式。我们有几十个不同的报告页面，每个报告由不同类型的数字和图形数据组成。例如：显示所有在过去一小时内登录系统的用户，并且其来源是美国。以最多玩过的游戏来展示一个图表，以最少玩过的游戏。系统中