dataframe

    1热度

    1回答

    我已经遇到一个奇怪的性能问题与R. 我有一个csv file包含接近600,00线和11列。最后一列包含日期。我正在尝试根据最后一列中的日期是周末还是周日来筛选行。正如你从下面的输出中可以看到的,这个相对简单的过滤需要12秒。 > library(lubridate) > data335 = read.csv("data335.csv") > Sys.time() [1] "2017-10-

    1热度

    2回答

    这里是我的代码: pizzarequests = pd.Series(open('pizza_requests.txt').read().splitlines()) line = "unix_timestamp_of_request_utc" lines = pizzarequests[pizzarequests.str.contains(line)].str.split(",").str[1

    -4热度

    1回答

    你好,我有原始数据,比如1我想添加一个以80为中断点的列作为合格等级,结果应该是2。我正在使用sqlContext.read.format(“com.databricks.spark.csv”)来读取原始数据。任何帮助!

    1热度

    1回答

    我想知道每个品牌的设备数量。其实,堆栈()。 Value_counts()方法是正确的,但它也计算它不应该计算的列。它以某种方式期待这两列并返回它们。 import pandas as pd from sqlalchemy import create_engine # database connection disk_engine = create_engine('sqlite://gend

    0热度

    2回答

    我是Scala/spark的新手。我正在研究Scala/Spark应用程序,该应用程序从配置单元表中选择几列,然后将其转换为可变映射,其中第一列是键,第二列是值。例如: +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 将被转换为Scala.mutab

    1热度

    3回答

    我想根据xy数据帧的列中值的递增顺序对xy1数据帧的列中的值进行排序。 x <- c(3,1,7,45,22,2) y <- c(23,65,1,23,2,11) xy <- data.frame(x,y) x1 <- c(0.34,0.3,0.7,0.22,0.67,0.87) y1 <- c(0.4,0.13,0.17,0.72,0.61,0.7) xy1 <- data.fram

    0热度

    2回答

    如何计算df列中使用Spark分区的字符串出现次数id? 例如在列查找值"test"的df 在SQL "name"是: def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

    1热度

    2回答

    我有一个数据框,我需要重塑,以方便它在一个viz应用程序中使用。这里的数据帧的压缩版本: Carrier <- c("Mesa", "United", "JetBlue", "ExpressJet", "SkyWest") Flight_Num <- c(7124, 7177, 334, 1223, 6380) Origin <- c("ORD", "EWR", "SFO", "BOS", "

    -1热度

    1回答

    我在大熊猫数据帧以下列柱: ​​ 在“统计”列,每个统计以由空格隔开。我想为每个统计信息创建新的列。问题是不是每行都有每种类型的属性。例如。第2行没有“trey”。我该如何完成这一壮举? 我想这一点,但每个“后,刚添加了新列: nba_2017_revised4 = nba_2017_revised3.join(nba_2017_revised3['Stats'].str.split(' ', 7

    -1热度

    1回答

    我已经想通了,如果我使用as.character(df[x,y])或as.<whatever>df[x,y]我能得到/强迫我需要什么,从我的数据每天的时间框架 我似乎无法找到/弄清楚就是为什么。下面的细节。 当我访问df[1,1](或任何在第1列),我得到 df[1,1] [1] a Levels: a b c 但是当我访问1,3-它工作正常 > df[1,3] [1] 10 但后来