bigdata

    2热度

    1回答

    我们在将数据存储在HBase中时遇到了一个问题。我们采取了以下步骤: Spark应用程序正在使用hfiles作为结果(结果数据大小:180 G)处理Big csv文件(大小:20 G)。通过使用命令 创作表的:从创建hfiles 'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'} 数据被表的装载后,用命令hbase org.apache.ha

    0热度

    2回答

    我试图导入一个巨大的数据集(稍后做分析),但我只想要4行(它们按实用程序分类,而我只对在其中几个)。 问题是:该格式是奇怪的和巨大的,我不断收到有关没有足够的列名称的错误。 格式如下:每行是一个公用事业区域,每一列从2015年夏季到现在每一小时,以及其用电量,所以有很多列(2015年至今的小时数x 2)。 我已经试过如下: > data<-read.table("C:\\Users\\EBA.tx

    2热度

    1回答

    我有一个相当复杂的Apache PySpark管道,它对(很大的)一组文本文件执行几个转换。我的管道的预期产量是管道的不同阶段。这是最好的方式(即更有效率,但更多波光粼粼的,意义在于:更适合Spark编程模型和风格)来做到这一点? 现在,我的代码如下所示: # initialize the pipeline and perform the first set of transformations.

    0热度

    1回答

    我有一个系统,其中REST API(Flask)使用spark-sumbit将作业发送到运行正常的pyspark。 由于各种原因,我需要spark来同时运行所有任务(即,我需要设置executors的数量=运行时的任务数量)。例如,如果我有20个任务,只有4个内核,我希望每个内核执行5个任务(执行程序),而不必重新启动火花。 我知道我可以在启动spark时设置执行程序的数量,但我不想这样做,因为s

    0热度

    1回答

    我尝试使用下面的命令从Oracle XE数据库的数据导入到HDFS从Oracle数据导入到HDFS: sudo sqoop import -connect jdbc:oracle:thin:system/[email protected]:1521:xe -username system -P -table employee -columns "ID" -target-dir sqoopoutpu

    -2热度

    1回答

    我对大数据技术很无知,并且好奇地将它与传统的应用程序开发联系起来。 开发任何Web应用程序的传统方法是有一个托管服务器(或应用程序服务器)和一个数据库来管理数据。 但让我们说,我有一个由网站生成的庞大数据集(即每秒GBs),那么网站将属于管理大数据的范畴。 让我们假设,我有一个20台计算机的集群,200GB的硬盘和核心i3处理器。所以现在我将拥有足够的处理和存储能力的网站。 (当然,如果我需要更多

    0热度

    1回答

    我有一个相当大的反应数据集,它是通过轮询文件,然后在预定义时间间隔内读取该文件而得到的。数据经常更新并需要不断重新加载。无可否认,重新加载可以逐步完成并附加到R中的现有对象,但不是。不过目前,这个动作是针对闪亮应用的每个用户完成的,尽管数据在会话中是相同的。 我想出了一个有关解决方案的唯一方法是确定会话是否是第一个,并让该会话成为通过轮询更新数据的主数据。如果仍然存在master,则后续会话不进行

    0热度

    1回答

    对于Spark作业,其输入和输出都在HDFS中。但是,我想知道,在执行Spark作业期间,是否有任何需要写入本地文件系统或从本地文件系统读取的内容?

    -1热度

    2回答

    我对着下面警告在会话日志缓存创建分拣机改造中的Informatica的PowerCenter **警告在会话日志。* 分拣转型[HIGHYIELDSPRDDELTA]需要2遍排序(1-pass temp I/O:23224320字节)。对于1-pass内存中排序,您可以尝试将高速缓存大小 设置为30 MB或更高。 在网络上,人们认为计算文件和硬编码在分拣机改造的性能数据的大小,但不是我们的项目可行

    0热度

    1回答

    正在运行一个Spark应用程序,它将使用文件中的配置参数。 文件: - Spark.conf username=ankush password=ankush host=https:// port=22 outputDirectory=/home/ankush/data/ 如何在运行时使用此文件。 而不是在我们对配置文件进行更改时重新启动作业如何使作业动态地在运行时选择文件。 我试图使用