bigdata

0热度

1回答

我正面临一个有趣的问题：我必须为我的用户显示Facebook，Foursquare和Twitter的聚合源，我不知道要使用什么解决方案。许多批处理并行运行，并且活动流中有许多更新。我需要操作活动列表，所以我首先尝试了Redis，但是当您使用许多sunionstore命令时复制不起作用。我一直在想： noSQL - > HBase。 newSQL - > VoltDB和SQLFire。数据网格

1热度

1回答

hadoop - 从非常大的序列文件中获取数据的最佳方式是什么？

我在hdfs中有一个非常大的hadoop序列文件。从中获取数据的最佳方式是什么？即选择记录等。可以通过配置单元完成吗？我如何在序列文件的配置单元中创建一个表？感谢

1热度

1回答

如何使用MongoDB作为唯一/枚举存储

这似乎是一个常见的用例...但不知何故，我无法得到它的工作。我正在尝试使用MongoDB作为具有唯一项目的枚举存储。我创建了一个带有byte [] Id（唯一ID）和一个时间戳（一个long，用于枚举）的集合。该商店相当大（千兆字节），并分布在不同的服务器中。目前我能够从零开始重建商店，因为我仍处于测试阶段。我想要做的是两两件事：创建我插入每个项目的唯一ID。这基本上意味着如果我插入两次相同

33热度

11回答

HBase的快速计算行

的数量现在我实现行数超过ResultScanner这样 for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } 如果数据达到了数以百万计的时间计算是large.I要计算在，我不希望使用实时Mapreduce 如何快速计算行数。

0热度

1回答

分区数据集的子列表

我有一个列表，其索引达到百万分之几。让我们说列表里面的列表是一个文本句子。我想分割这些数据在不同的线程中处理。我用subList来拆分数据并将它发送到不同的线程进行处理。这是分区数据的标准方法吗？如果没有，你能否建议我一些标准的接近呢？

1热度

2回答

优化大型表上的SQL连接

我正在PostgreSQL数据库上运行一个大型表（每天700万新行）的sql查询集合，并且已经遇到了第一个视图和现在创建表的一些性能问题。大多数我使用的命令类似于下面的查询： CREATE TABLE events_tb AS SELECT * FROM (SELECT column1, column2, column3, column4, column5 FROM test_data

2热度

1回答

为大型Postgresql表优化嵌套连接窗口函数

我一直在对大小为56GB的表（789700760行）运行以下查询，并且在执行时间内遇到瓶颈。从我之前的一些例子中我可以看出，可能有一种方法可以'嵌套'INNER JOIN，以便查询对大型数据集执行更好。特别是下面的查询花了7.651小时完成MPP PostgreSQL部署的执行。 create table large_table as select column1, column2, colum

2热度

1回答

在twitter上查找来自百万人的20条最新推文

这个问题是贯穿整个设计方法的各种事情，你会在你的web应用程序中做这样的事情，如果你在推特上跟随数百万人并且当你检查最新的20条推文让你在最短的时间内找到它，并减少对资源的负担。这是一个关于整个堆栈的开放式设计问题。我的回答不完整的（因为我是不能完全回答这个问题），因为我们正在谈论数百万用户的那么我们就必须进行分片数据库，根据用户的地理位置，这答案没有被接受，因为在twitter中你确实不跟随

2热度

1回答

在基于Web的应用程序中处理大量数据

为基于Web的应用程序存储大量数据的最佳方式是什么？每个记录只有3个字段，但每天将有大约1.44亿条记录 - 存储一个月 - 总计444.4亿条记录。让我们凑到50亿。数据必须通过关键字搜索&尽可能快地向最终用户返回结果。哪种编程语言？ JSON/XML /一些我从未听说过的数据库系统？什么样的基础设施？想象一下，这个系统只能同时满足最多1,000个用户的需求。我假设代码是相同的，无论你

2热度

1回答

什么是BigData和NoSQL，两者都有哪些好书？

我知道我在一个问两个问题。但有人可以告诉我什么是bigdata的意思。另外NoSQL与传统SQL有什么不同。最后可以请您推荐好的/最好的书籍或教程/网站的主题，可以采取新手提高水平。请回复。