我想要带这个标签文本(如此格式化)并找到每个句子中pos-tag DT的平均频率。恩。 DT在句子1中出现1/3字,在句子2中出现1/3字。然后我想把这些加起来除以文本中的句子数(本例中为2)。这会给我每句话DT的平均外观。平均POS标签频率
from collections import Counter
import nltk
tagged_text = [('A', 'DT'), ('hairy', 'NNS'), ('dog', 'NN')]
[('The', 'DT'), ('mischevious', 'NNS'), ('elephant', 'NN')]
for eachSentence in tagged_text:
Counter(tag for word,tag in tagged)/len(eachsentence.split())
total = sum(counts.values())
float(average) = sum(counts.values())/len(tagged_text.sents())
print(float(average))
对我来说,最大的问题是eachSentence一部分我不的不如何解决(我不知道如何界定它是什么)。我希望此代码能够应用于数百个具有相同格式的句子。我知道代码有很多问题,所以如果有人能纠正它们,我会非常感激。
我不知道我明白你在问什么。你想知道如何将数百个句子分配给变量'eachSentence'吗? – oschlueter