我有一个json和csv文件,其内容相同,内容为1.8m亚马逊的评论。处理json比csv多核多慢
我正在执行2个操作:DataFrame行数和生成文本数据的TFIDF。我用1,2,4和8个内核尝试了这个操作。随着内核数量的增加,基于csv的DataFrame的处理速度成比例增加,但基于json的保持不变。
行计数例如:
data = spark.read.format("csv").option("header", "true").load("path/amazon_half.csv")
%timeit -n 10 data.count()
djs = spark.read.format("json").option("header", "true").load("path/amazon_half.json")
%timeit -n 10 djs.count()
所附表表示以秒为与不同数量的核的执行这些操作的时间。
我期望处理JSON和CSV具有相同数据所需的时间将是或多或少相等。这是正常的,如果是这样,是否有一种方法来处理json的速度与csv中的spark相同?
你的问题是? –
对不起,添加了这个问题。 –