0
在PySpark中有没有和pandas中的info()方法等价的方法?Pyspark:是否有一个等效的方法熊猫信息()?
我试图获得有关PySpark一个数据帧的基本统计资料,如: 列和行数 零点数 数据帧的大小
信息()在大熊猫方法提供所有这些统计信息。
在PySpark中有没有和pandas中的info()方法等价的方法?Pyspark:是否有一个等效的方法熊猫信息()?
我试图获得有关PySpark一个数据帧的基本统计资料,如: 列和行数 零点数 数据帧的大小
信息()在大熊猫方法提供所有这些统计信息。
为了弄清楚有关数据帧类型的信息,你可以尝试df.schema
spark.read.csv('matchCount.csv',header=True).schema
StructType(List(StructField(categ,StringType,true),StructField(minv,StringType,true),StructField(maxv,StringType,true),StructField(counts,StringType,true),StructField(cutoff,StringType,true)))
对于摘要统计,你也可以看看形容从文档的方法。
printSchema()将为您提供一个更容易阅读相同信息的版本。 – RyanW