请问如何计算“词组”的频率分布?NLTK词组分布的频率分布
换句话说,我有一个文本文件。这里是一个快照:
这里是我的代码,以查找在文本文件中的50个最常用的词:
f=open('myfile.txt','rU')
text=f.read()
text1=text.split()
keywords=nltk.Text(text1)
fdist1=FreqDist(keywords)
fdist1.most_common(50)
在结果中,你可以在链接中看到,每个单词计算。下面是结果的截图:
它运作良好,但我试图找到每一行的文本文件的频率分布。例如,在第一行中,有一个术语“概念改变”。该程序将“概念”和“更改”计算为不同的关键字。但是,我需要找到术语“概念改变”的频率分布。
欢迎堆栈溢出。您可以通过提供一些有关您尝试过的方式以及卡住的位置的信息来改善您的问题。 – Willem
另外:输入文件实际上是什么样的?显示几行。 – alexis
我根据你的建议编辑了我的问题 –