在NLTK,你可以很容易地计算的话计数文本,比方说,通过做NLTK FreqDist,绘制标准化计数?
from nltk.probability import FreqDist
fd = FreqDist([word for word in text.split()])
,其中文本是一个字符串。 现在,你可以绘制分布
fd.plot()
,这将让你与计数每个字一个很好的线图。在docs中没有提到绘制实际频率的方法,您可以在fd.freq(x)
中看到。
绘制标准化计数的任何直接方法,不需要将数据转化为其他数据结构,分别标准化和绘图?
谢谢。太糟糕了,它没有plot()方法来显示FreqDist所做的一个绘图。另外,FreqDist已经有了一个'freq'方法,可以进行标准化,但这并不能解决我直接从对象绘图的问题。 –
绘制概率可能没有意义,在这种情况下,您的x轴和y轴是什么? – alvas
而不是计数我想要发生的频率,就这些。有意义的是,我想知道语料库中单词的份额是多少。我明白语言学中的“频率”这个词是用来表示计数的,但我想这个比例。 –