dataframe

1热度

1回答

我已经遇到一个奇怪的性能问题与R. 我有一个csv file包含接近600,00线和11列。最后一列包含日期。我正在尝试根据最后一列中的日期是周末还是周日来筛选行。正如你从下面的输出中可以看到的，这个相对简单的过滤需要12秒。 > library(lubridate) > data335 = read.csv("data335.csv") > Sys.time() [1] "2017-10-

1热度

2回答

如何统计两列数据框中的trues和falses？

这里是我的代码： pizzarequests = pd.Series(open('pizza_requests.txt').read().splitlines()) line = "unix_timestamp_of_request_utc" lines = pizzarequests[pizzarequests.str.contains(line)].str.split(",").str[1

-4热度

1回答

Spark Scala数据帧等级分类

你好，我有原始数据，比如1我想添加一个以80为中断点的列作为合格等级，结果应该是2。我正在使用sqlContext.read.format（“com.databricks.spark.csv”）来读取原始数据。任何帮助！

1热度

1回答

大熊猫value_counts（）仅在一列上堆叠

我想知道每个品牌的设备数量。其实，堆栈（）。 Value_counts（）方法是正确的，但它也计算它不应该计算的列。它以某种方式期待这两列并返回它们。 import pandas as pd from sqlalchemy import create_engine # database connection disk_engine = create_engine('sqlite://gend

0热度

2回答

将Dataframe转换为Scala可变映射不会产生相同数量的记录

我是Scala/spark的新手。我正在研究Scala/Spark应用程序，该应用程序从配置单元表中选择几列，然后将其转换为可变映射，其中第一列是键，第二列是值。例如： +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 将被转换为Scala.mutab

1热度

3回答

按照另一个数据帧中值的顺序对数据帧中的值进行排序R

我想根据xy数据帧的列中值的递增顺序对xy1数据帧的列中的值进行排序。 x <- c(3,1,7,45,22,2) y <- c(23,65,1,23,2,11) xy <- data.frame(x,y) x1 <- c(0.34,0.3,0.7,0.22,0.67,0.87) y1 <- c(0.4,0.13,0.17,0.72,0.61,0.7) xy1 <- data.fram

0热度

2回答

Scala Spark - 计算Dataframe列中特定字符串的出现

如何计算df列中使用Spark分区的字符串出现次数id？例如在列查找值"test"的df 在SQL "name"是： def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

1热度

2回答

R - 如何重新整理两列中的数据帧整理值？

我有一个数据框，我需要重塑，以方便它在一个viz应用程序中使用。这里的数据帧的压缩版本： Carrier <- c("Mesa", "United", "JetBlue", "ExpressJet", "SkyWest") Flight_Num <- c(7124, 7177, 334, 1223, 6380) Origin <- c("ORD", "EWR", "SFO", "BOS", "

-1热度

1回答

熊猫数据帧添加基于字符串

我在大熊猫数据帧以下列柱：在“统计”列，每个统计以由空格隔开。我想为每个统计信息创建新的列。问题是不是每行都有每种类型的属性。例如。第2行没有“trey”。我该如何完成这一壮举？我想这一点，但每个“后，刚添加了新列： nba_2017_revised4 = nba_2017_revised3.join(nba_2017_revised3['Stats'].str.split(' ', 7

-1热度

1回答

访问R数据框中的单个元素有时会返回一个List？

我已经想通了，如果我使用as.character(df[x,y])或as.<whatever>df[x,y]我能得到/强迫我需要什么，从我的数据每天的时间框架我似乎无法找到/弄清楚就是为什么。下面的细节。当我访问df[1,1]（或任何在第1列），我得到 df[1,1] [1] a Levels: a b c 但是当我访问1,3-它工作正常 > df[1,3] [1] 10 但后来