我试图找到一个数据框中给定单词的概率,但我得到一个AttributeError: 'Series' object has no attribute 'columns'
错误与我目前的设置。希望你能帮我找到错误的地方。熊猫值的概率
我从一个类似于下图的数据框开始,通过下面的函数转换它以查找每个单词的总计数。下面
query count
foo bar 10
super 8
foo 4
super foo bar 2
功能:
def _words(df):
return df['query'].str.get_dummies(sep=' ').T.dot(df['count'])
在下面的DF得到的(注意 '富' 是16,因为它出现在整个DF 16次):
bar 12
foo 16
super 10
问题来在尝试查找df中给定关键字的概率时,它当前不会附加列名称。以下是我目前正在处理的内容,但它抛出了“AttributeError:'Series'对象没有属性”列“的错误。
def _probability(df, query):
return df[query]/df.groupby['count'].sum()
我希望调用_probability(DF, '富')将返回0.421052632(16 /(12 + 16 + 10))。提前致谢!
你可以发布你想要的数据集吗? – MaxU