bigdata

0热度

1回答

我是hadoop的新手，最近我被要求用Hadoop做一个测试项目。因此，当我重新评估BigData时，碰巧知道Pail。现在我想要做的就是这样的事情。首先创建一个简单的对象，然后使用Thrift将其序列化，然后使用Pail将其放入Hdfs中。然后我想在map函数中获取这个对象并做我想做的事情。但我不知道如何在map函数中获取tat对象。有人可以告诉我任何参考或解释如何做到这一点？感谢名单

0热度

1回答

OrientDB GraphDatabase：用于@RID的OSQLSynchQuery以获取graph.getVertex（rid）...从索引键加载顶点的最快方法？

给定一个与索引'名称'（唯一或不唯一）的基本蓝图兼容的OrientGraph，如果需要可以改进以下内容的任何建议？注意：我找不到使用索引加载[blueprints]顶点的权威指南。我有一个大图，使用（'名字'，'鲍勃'）（在控制台）需要2分钟！另一方面，基于索引的搜索以毫秒为单位返回。我想出迄今最好的： OrientGraph graph = new OrientGraph("local:/g

0热度

1回答

大数据CMS全文搜索

目前我有一个应用程序，用户上传文档（pdfs/excel/word，几张图片）。找一个对大数据（Hadoop的MangoDB）解决方案，可以存储数千PDF，词，Excel文件（因为我们是规模增长过快）搜索图像的元信息全文搜索（晴实时）快速的检索请指教

3热度

1回答

什么是存储由R生成的大型结果的理想格式？

我通过大量参数组合（20-40k）模拟合理大小的数据集（10-20mb）。通过mclapply推送每个数据集x参数集，结果为list，其中每个项目包含输出数据（如列表项目1）以及用于生成列表项目2（其中该列表的每个元素都是参数）的参数。我刚刚跑过一个81K列表（但必须以30k块运行它们），结果列表每个大约700 MB。我将它们存储为.rdata文件，但可能会将它们重新保存到.Rda。但每个文件需

36热度

5回答

推荐用于在R中进行超大型数据集处理和机器学习的软件包

R似乎真的是专门用来处理可以完全放入内存的数据集。推荐使用什么R包进行信号处理和在非常大的数据集上进行机器学习，这些数据集不能被拉入内存？如果R是根本错误的方式做到这一点，我愿意接受其他强大的免费的建议（如SciPy的，如果有处理非常大的数据集，一些不错的方式）

0热度

1回答

如何定期分析Hadoop上的数据

我有一个数据源一直在生成大量数据，我将这些数据定期放到我的hadoop群集中。我要分析这些数据每隔X分钟，但我不希望在所有每次只想把最后X分钟，并分析它的数据来执行我的分析... 我我正在将数据实时发送到hbase，要获得最后的x分钟并对此数据执行mr作业，最佳方法是什么？

0热度

1回答

HPCC/HDFS连接器

谁知道大约HPCC/HDFS connector.we同时使用HPCC和HADOOP.There是一个实用程序（HPCC/HDFS连接器）通过HPCC开发了允许HPCC簇接取HDFS数据我已经安装了连接器，但是当我运行程序来访问hdfs中的数据时，它会给出错误，因为libhdfs.so.0不存在。我试图建立libhdfs.so使用命令 ant compile-libhdfs -Dlibhdfs

1热度

1回答

快速保存\负荷大数据

我有下面的类： public class HPChartGraphPoint { public int Keyword { get; set; } public List<long> Points { get; set; } public HPChartGraphPoint() { Points = new List<long>();

3热度

1回答

哪台机器运行Hadoop的Reducer

如果我有一个4节点的群集，其中1台机器是名称节点，其余3台机器是datanodes，并且如果将reducer的数量设置为1，那么哪个数据节点将运行减速机？

0热度

3回答

需要解决方案来归档日志并具有实时搜索功能

我一直在考虑以下选项。 senseidb [http://www.senseidb.com]这需要一个固定的模式还数据网关。所以没有简单的方法来推送数据，但提供数据流。我的数据是unstuctured和对面有各种日志了Riak [http://wiki.basho.com/Riak-Search.html] Vertica的很少共同的属性 - 成本因素？ HBase的（+的Hadoop生态系统+