bigdata

-1热度

1回答

public class DataMiner { private static BigData app = new BigData(); private static DomainOfConstants doc = new DomainOfConstants(); private static Logger log = Logger.getLogger(DataMiner.class);

1热度

1回答

在cassandra中实现上一页导航的正确方法是什么？

我正在玩cassandra一段时间，我不太满意的一件事是前一页的分页。据我所知cassandra有自动寻呼支持。我必须给出的是PageSize和PageState，并返回下一组行。我对“下一页”链接没有任何问题，因为每次查询cassandra它都会返回下一个PageState。但是我不知道什么是正确的方式来实现上一页的链接。由于我的项目是一个网络应用程序，因此它具有上一页链接非常重要。目前

0热度

1回答

Postgres的大表

优化查询我想选择一个大表行（〜10M行）表包含一列timestamp上，我设置了index 我想大块采取行N行，为了（通过时间戳订购），这就是为什么我使用limit和offset 我从不同的进程的查询需要年龄运行并行查询，和我的服务器爆炸的磁盘使用情况（超过150G比普通磁盘使用量）一旦查询quilled，磁盘占用率恢复正常这是我的查询的解释（这个人是没有order by） my_db=#

0热度

1回答

我正在寻找一种高效的方法来连接和合并关于一些条件的熊猫DataFrame中的行

我正在研究一个熊猫数据集的代码。为了简化我的问题，假设L_1 = {2,5,8,19}（L_1中的元素按升序排序）。我想知道如何生成另一个集合L_2 = {（2,5），（2,8），（2,19），（5,8），（5,19），（8,19） }。然后，基于L2，如何再次生成另一个集合L_3 = {（2,5,8），（2,5,19），（2,8,19），（5,8,19）}。再次，基于L_3，如何生成L_4 =

0热度

1回答

加载csv文件到HBase的使用Importtsv

我试图用Importtsv加载csv文件到HBase的。我已经上传了customers1.csv到HDFS，创建了一个名为T1一个HBase的表使用命令 hbase(main):001:0> create 't1','FirstName','LastName' ，当我尝试通过运行命令加载CSV数据到HBase的表t1： hbase(main):010:0> hbase org.apache.

-1热度

2回答

我需要搜索unix上的非精确匹配，我不能用grep来做它

我知道关于文件A，有一个字符串，其中包含dc034但是，我无法使用grep命令或者使用字数或通过搜索字符串。我在做什么错？建议 grep "dc034" filedirectoryA | wc 0 0 0 grep -Fv "dc034" filedirectoryA

2热度

1回答

由crontab调度的猪脚本没有给出结果

我有猪脚本，当我从猪（地图减少模式）运行时给出正确的结果，但是当我从crontab计划不按照脚本存储输出。猪脚本， a1 = load '/user/training/abhijit_hdfs/id' using PigStorage('\t') as (id:int,name:chararray,desig:chararray); a2 = load '/user/training/abhi

1热度

2回答

python优化熊猫群

我有一个产品合同的数据框（与Product_ID）。这些合约在特定日期（StartDate）打开并在特定时间关闭（CloseDate）。也有可能此时此合约处于活动状态，因此没有CloseDate。有多个客户有合同，引用ID。这些客户在特定时刻填写调查表，这一时间以日期（Key_Date）表示。我想要计算的是几个特征，但是在这个例子中我将关注独特产品的数量。在填写调查问卷时，我想知道某位客户有多

0热度

1回答

我如何解决tweepy脚本的这个语法错误？

你好，我试图学习项目的编程。我一直在研究一个简单的脚本（使用tweepy）从搜索关键字下载推文到.csv格式。然而，我不断收到多行（从28到38）sintax错误，我不知道什么是错的在这一点上，有人可以告诉我什么是错的？这里是我一直在努力的代码... # -*- coding: utf-8 -*- #import modules import tweepy from tweepy imp

-1热度

1回答

如何使用上下文表作为模式将文本文件保存为配置单元

我有许多文本格式（word和pdf）的项目报告。这些文件包含我想要提取的数据;如引用，关键字，提及的名字....... 我想用Apache spark处理这些文件并将结果保存到配置单元，使用dataframe的强大功能（使用上下文表格作为模式）那可能吗？愿您与我分享有关如何处理这些文件的任何想法？