bigdata

    0热度

    1回答

    我是hadoop的新手,最近我被要求用Hadoop做一个测试项目。 因此,当我重新评估BigData时,碰巧知道Pail。现在我想要做的就是这样的事情。首先创建一个简单的对象,然后使用Thrift将其序列化,然后使用Pail将其放入Hdfs中。然后我想在map函数中获取这个对象并做我想做的事情。但我不知道如何在map函数中获取tat对象。 有人可以告诉我任何参考或解释如何做到这一点? 感谢名单

    0热度

    1回答

    给定一个与索引'名称'(唯一或不唯一)的基本蓝图兼容的OrientGraph,如果需要可以改进以下内容的任何建议? 注意:我找不到使用索引加载[blueprints]顶点的权威指南。我有一个大图,使用('名字','鲍勃')(在控制台)需要2分钟!另一方面,基于索引的搜索以毫秒为单位返回。 我想出迄今最好的: OrientGraph graph = new OrientGraph("local:/g

    0热度

    1回答

    目前我有一个应用程序,用户上传文档(pdfs/excel/word,几张图片)。找一个对大数据(Hadoop的MangoDB)解决方案,可以 存储数千PDF,词,Excel文件(因为我们是规模增长过快) 搜索图像的元信息 全文搜索(晴实时) 快速的检索 请指教

    3热度

    1回答

    我通过大量参数组合(20-40k)模拟合理大小的数据集(10-20mb)。通过mclapply推送每个数据集x参数集,结果为list,其中每个项目包含输出数据(如列表项目1)以及用于生成列表项目2(其中该列表的每个元素都是参数)的参数。 我刚刚跑过一个81K列表(但必须以30k块运行它们),结果列表每个大约700 MB。我将它们存储为.rdata文件,但可能会将它们重新保存到.Rda。但每个文件需

    36热度

    5回答

    R似乎真的是专门用来处理可以完全放入内存的数据集。推荐使用什么R包进行信号处理和在非常大的数据集上进行机器学习,这些数据集不能被拉入内存? 如果R是根本错误的方式做到这一点,我愿意接受其他强大的免费的建议(如SciPy的,如果有处理非常大的数据集,一些不错的方式)

    0热度

    1回答

    我有一个数据源一直在生成大量数据,我将这些数据定期放到我的hadoop群集中。 我要分析这些数据每隔X分钟,但我不希望在所有每次 只想把最后X分钟,并分析它的数据来执行我的分析... 我我正在将数据实时发送到hbase, 要获得最后的x分钟并对此数据执行mr作业,最佳方法是什么?

    0热度

    1回答

    谁知道大约HPCC/HDFS connector.we同时使用HPCC和HADOOP.There是一个实用程序(HPCC/HDFS连接器)通过HPCC开发了允许HPCC簇接取HDFS数据 我已经安装了连接器,但是当我运行程序来访问hdfs中的数据时,它会给出错误,因为libhdfs.so.0不存在。 我试图建立libhdfs.so使用命令 ant compile-libhdfs -Dlibhdfs

    1热度

    1回答

    我有下面的类: public class HPChartGraphPoint { public int Keyword { get; set; } public List<long> Points { get; set; } public HPChartGraphPoint() { Points = new List<long>();

    3热度

    1回答

    如果我有一个4节点的群集,其中1台机器是名称节点,其余3台机器是datanodes,并且如果将reducer的数量设置为1,那么哪个数据节点将运行减速机?

    0热度

    3回答

    我一直在考虑以下选项。 senseidb [http://www.senseidb.com]这需要一个固定的模式还数据网关。所以没有简单的方法来推送数据,但提供数据流。我的数据是unstuctured和对面有各种日志 了Riak [http://wiki.basho.com/Riak-Search.html] Vertica的很少共同的属性 - 成本因素? HBase的(+的Hadoop生态系统+