bigdata

    0热度

    1回答

    我正面临一个有趣的问题:我必须为我的用户显示Facebook,Foursquare和Twitter的聚合源,我不知道要使用什么解决方案。许多批处理并行运行,并且活动流中有许多更新。 我需要操作活动列表,所以我首先尝试了Redis,但是当您使用许多sunionstore命令时复制不起作用。我一直在想: noSQL - > HBase。 newSQL - > VoltDB和SQLFire。 数据网格

    1热度

    1回答

    我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方式是什么?即选择记录等。 可以通过配置单元完成吗? 我如何在序列文件的配置单元中创建一个表? 感谢

    1热度

    1回答

    这似乎是一个常见的用例...但不知何故,我无法得到它的工作。 我正在尝试使用MongoDB作为具有唯一项目的枚举存储。我创建了一个带有byte [] Id(唯一ID)和一个时间戳(一个long,用于枚举)的集合。该商店相当大(千兆字节),并分布在不同的服务器中。目前我能够从零开始重建商店,因为我仍处于测试阶段。 我想要做的是两两件事: 创建我插入每个项目的唯一ID。这基本上意味着如果我插入两次相同

    33热度

    11回答

    的数量现在我实现行数超过ResultScanner这样 for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } 如果数据达到了数以百万计的时间计算是large.I要计算在,我不希望使用实时Mapreduce 如何快速计算行数。

    0热度

    1回答

    我有一个列表,其索引达到百万分之几。让我们说列表里面的列表是一个文本句子。我想分割这些数据在不同的线程中处理。我用subList来拆分 数据并将它发送到不同的线程进行处理。这是分区数据的标准方法吗?如果没有,你能否建议我一些标准的接近呢?

    1热度

    2回答

    我正在PostgreSQL数据库上运行一个大型表(每天700万新行)的sql查询集合,并且已经遇到了第一个视图和现在创建表的一些性能问题。大多数我使用的命令类似于下面的查询: CREATE TABLE events_tb AS SELECT * FROM (SELECT column1, column2, column3, column4, column5 FROM test_data

    2热度

    1回答

    我一直在对大小为56GB的表(789700760行)运行以下查询,并且在执行时间内遇到瓶颈。从我之前的一些例子中我可以看出,可能有一种方法可以'嵌套'INNER JOIN,以便查询对大型数据集执行更好。特别是下面的查询花了7.651小时完成MPP PostgreSQL部署的执行。 create table large_table as select column1, column2, colum

    2热度

    1回答

    这个问题是贯穿整个设计方法的各种事情,你会在你的web应用程序中做这样的事情,如果你在推特上跟随数百万人并且当你检查最新的20条推文让你在最短的时间内找到它,并减少对资源的负担。这是一个关于整个堆栈的开放式设计问题。 我的回答不完整的(因为我是不能完全回答这个问题),因为我们正在谈论数百万用户的 那么我们就必须进行分片数据库,根据用户的地理位置,这答案没有被接受,因为在twitter中你确实不跟随

    2热度

    1回答

    为基于Web的应用程序存储大量数据的最佳方式是什么? 每个记录只有3个字段,但每天将有大约1.44亿条记录 - 存储一个月 - 总计444.4亿条记录。让我们凑到50亿。 数据必须通过关键字搜索&尽可能快地向最终用户返回结果。 哪种编程语言? JSON/XML /一些我从未听说过的数据库系统? 什么样的基础设施?想象一下,这个系统只能同时满足最多1,000个用户的需求。 我假设代码是相同的,无论你

    2热度

    1回答

    我知道我在一个问两个问题。但有人可以告诉我什么是bigdata的意思。另外NoSQL与传统SQL有什么不同。 最后可以请您推荐好的/最好的书籍或教程/网站的主题,可以采取新手提高水平。 请回复。