bigdata

    -3热度

    1回答

    需求是使用Scala或Spark编程计算卡夫卡主题中的消息数。我对这两种编程都很陌生,所以我不确定该怎么做。任何人都可以帮我编写代码或指导我如何实现。

    1热度

    1回答

    我需要在Stream Set管道中映射10000个列表并需要从(csv)文件向其发送数据。因此,通过提及列名称来映射流集应用程序中的每个列对于10000列来说是非常大的任务。 所以任何人都可以回答什么是实现它的任何其他简单方法? 或者我可以通过使用其REST API来实现它吗? 在此先感谢。

    0热度

    1回答

    我的数据由vehicle_ID,x和y坐标(位置),车辆速度,行驶时间组成。我们想知道哪些车在走相同的道路? 这是我与1号车用ID 1数据的样本,我有70万个车辆IDS分析 所以基本上我需要对我们如何才能弄清楚什么是不同的道路,以及我们如何能seprate见解从另一条路走一条路? time vehicleID X Y speed 37081 1 13379.67 13854.

    0热度

    2回答

    我正在S3中构建数据湖。因此,我想将原始数据流存储到s3中,下面是我的代码片断,我尝试了本地存储。 val tweets = TwitterUtils.createStream(ssc, None) val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText()) import

    1热度

    1回答

    我有一个巨大的csv文件,1.37 GB,并且在R中运行glm时,它崩溃,因为我没有分配足够的内存。你知道,经常出现的错误.. 是否有没有其他的软件包ff和bigmemory的替代品,因为他们似乎不适合我,因为我的列是一个整数和字符的混合,而且似乎与两个包我必须指定我的列是什么类型,无论是字符或整数。 我们即将在2018年即将把人们放在火星上;有没有简单的“read.csv.xxl”函数我们可以使

    1热度

    1回答

    我有以下的表存储在蜂巢称为ExampleData: +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

    0热度

    2回答

    我试图解决使用Hadoop这个问题。 查找使用平均收视率前十位的企业评级。评分最高的商家将排在第一位。回想一下,review.csv文件中的第4列代表评级。 我的Java代码: package bd; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import ja

    2热度

    1回答

    点燃VS蒙戈DB 是什么点燃Apache和蒙戈DB之间的主要区别? 是mongo db一个数据库,我们保存在磁盘中并点燃一个内存,我们保存在Ram中? 你可以一起使用它们吗?如果是的话,你将如何结合他们?

    -4热度

    1回答

    我一直在使用C++,并且一直在面对大数目的问题。我已经用“寻找数百分之一”的数组解决了它,但是我想知道处理大数字的python的方法。谢谢。

    0热度

    3回答

    我想了解用于报告目的的最佳大数据解决方案是什么? 目前我把它缩小到HBase vs Hive。 用例是我们有几百TB的数据,有数百个不同的文件。数据是实时的,并且一直在更新。我们需要提供最有效的报告方式。我们有几十个不同的报告页面,每个报告由不同类型的数字和图形数据组成。例如: 显示所有在过去一小时内登录系统的用户,并且 其来源是美国。 以最多玩过的游戏来展示一个图表,以 最少玩过的游戏。 系统中