我有一个严重的问题:我已经下载NLTK 的最后一个版本,我得到一个奇怪的POS输出: import nltk
import re
sample_text="start please with me"
tokenized = nltk.sent_tokenize(sample_text)
for i in tokenized:
words=nltk.word_tokeniz
当我尝试训练一个有40K句子的语料库时,没有任何问题。但是,当我训练86K的句子,我得到的错误是这样的: ERROR:root:
Traceback (most recent call last):
File "CLC_POS_train.py", line 95, in main
train(sys.argv[10], encoding, flag_tagger, k, p
我学会使用polyglot为POS标签提供印度尼西亚文本。 import polyglot
from polyglot.text import Text, Word
text=Text("Menurut dia, Syahganda, dikenal sebagai penggiat isu-isu pertanahan serta perburuhan.")
print text.pos