bigdata

    -1热度

    1回答

    public class DataMiner { private static BigData app = new BigData(); private static DomainOfConstants doc = new DomainOfConstants(); private static Logger log = Logger.getLogger(DataMiner.class);

    1热度

    1回答

    我正在玩cassandra一段时间,我不太满意的一件事是前一页的分页。 据我所知cassandra有自动寻呼支持。我必须给出的是PageSize和PageState,并返回下一组行。 我对“下一页”链接没有任何问题,因为每次查询cassandra它都会返回下一个PageState。 但是我不知道什么是正确的方式来实现上一页的链接。由于我的项目是一个网络应用程序,因此它具有上一页链接非常重要。 目前

    0热度

    1回答

    优化查询我想选择一个大表行(〜10M行) 表包含一列timestamp上,我设置了index 我想大块采取行N行,为了(通过时间戳订购),这就是为什么我使用limit和offset 我从不同的进程 的查询需要年龄运行并行查询,和我的服务器爆炸的磁盘使用情况(超过150G比普通磁盘使用量) 一旦查询quilled,磁盘占用率恢复正常 这是我的查询的解释(这个人是没有order by) my_db=#

    0热度

    1回答

    我正在研究一个熊猫数据集的代码。为了简化我的问题,假设L_1 = {2,5,8,19}(L_1中的元素按升序排序)。我想知道如何生成另一个集合L_2 = {(2,5),(2,8),(2,19),(5,8),(5,19),(8,19) }。然后,基于L2,如何再次生成另一个集合L_3 = {(2,5,8),(2,5,19),(2,8,19),(5,8,19)}。再次,基于L_3,如何生成L_4 =

    0热度

    1回答

    我试图用Importtsv加载csv文件到HBase的。 我已经上传了customers1.csv到HDFS,创建了一个名为T1一个HBase的表使用命令 hbase(main):001:0> create 't1','FirstName','LastName' ,当我尝试通过运行命令加载CSV数据到HBase的表t1: hbase(main):010:0> hbase org.apache.

    -1热度

    2回答

    我知道关于文件A,有一个字符串,其中包含dc034但是,我无法使用grep命令或者使用字数或通过搜索字符串。 我在做什么错?建议 grep "dc034" filedirectoryA | wc 0 0 0 grep -Fv "dc034" filedirectoryA

    2热度

    1回答

    我有猪脚本,当我从猪(地图减少模式)运行时给出正确的结果,但是当我从crontab计划不按照脚本存储输出。 猪脚本, a1 = load '/user/training/abhijit_hdfs/id' using PigStorage('\t') as (id:int,name:chararray,desig:chararray); a2 = load '/user/training/abhi

    1热度

    2回答

    我有一个产品合同的数据框(与Product_ID)。这些合约在特定日期(StartDate)打开并在特定时间关闭(CloseDate)。也有可能此时此合约处于活动状态,因此没有CloseDate。 有多个客户有合同,引用ID。这些客户在特定时刻填写调查表,这一时间以日期(Key_Date)表示。 我想要计算的是几个特征,但是在这个例子中我将关注独特产品的数量。在填写调查问卷时,我想知道某位客户有多

    0热度

    1回答

    你好,我试图学习项目的编程。 我一直在研究一个简单的脚本(使用tweepy)从搜索关键字下载推文到.csv格式。然而,我不断收到多行(从28到38)sintax错误,我不知道什么是错的在这一点上,有人可以告诉我什么是错的? 这里是我一直在努力的代码... # -*- coding: utf-8 -*- #import modules import tweepy from tweepy imp

    -1热度

    1回答

    我有许多文本格式(word和pdf)的项目报告。这些文件包含我想要提取的数据;如引用,关键字,提及的名字....... 我想用Apache spark处理这些文件并将结果保存到配置单元, 使用dataframe的强大功能(使用上下文表格作为模式)那可能吗? 愿您与我分享有关如何处理这些文件的任何想法?