循环我有这样的数据:的Python对于数据(CSV)
这使向下继续。
如何找到使用python代码的前20个最常见的平台?
我真的迷路了。我想可能是通过for循环列表并计算每个列表?看上去是错的,但..
循环我有这样的数据:的Python对于数据(CSV)
这使向下继续。
如何找到使用python代码的前20个最常见的平台?
我真的迷路了。我想可能是通过for循环列表并计算每个列表?看上去是错的,但..
使用熊猫:http://pandas.pydata.org/
类似:
import pandas as pd
df = pd.read_csv("your_csv_file.csv")
top_platforms = df.nlargest(20, "Score")["Platform"]
字典将是一个不错的选择,收集这样的信息:
初始化一个空字典。
对于CSV文件的每一行:
完成后,按照计数值对字典进行排序并打印前20个条目。
我会用大熊猫CSV文件
import pandas as pd
from collection import Counter
df = pd.read_csv('DATA.csv') # read the csv file into a dataframe *df*
# create counter object containing dictionary
# invoke the pandas groupby and count methods
d = Counter(dict(df.groupby(['Platform'])['Platform'].count()))
d
阅读会“包含”形式的字典一个计数器对象{<platform>:<number of counts in dataset>}
你可以得到顶k
最常见的平台如下:
k = 20
d.most_common(k)
>>> [('<platform1>', count1),
('<platform2>', count2),
('<platform3>', count3),
('<platform4>', count4),
....
希望有所帮助。在将来,最好看到数据的头部(前几行),或者到目前为止您尝试过的代码......甚至是您使用的数据纠缠工具!