这是我的要求。我想以这样的方式标记和标记段落,以使我能够实现以下内容。nltk自定义标记器和标记器
- 应确定日期和时间段和标记他们为DATE和TIME
- 应确定在一段已知的短语和标签为自定义
- 和休息含量应标记化应由被标记化默认nltk的word_tokenize和pos_tag函数?
例如,以下sentense
"They all like to go there on 5th November 2010, but I am not interested."
应被标记和标记化作为在自定义短语的情况下,下面是“我不感兴趣”。
[('They', 'PRP'), ('all', 'VBP'), ('like', 'IN'), ('to', 'TO'), ('go', 'VB'),
('there', 'RB'), ('on', 'IN'), ('5th November 2010', 'DATE'), (',', ','),
('but', 'CC'), ('I am not interested', 'CUSTOM'), ('.', '.')]
任何建议都将是有用的。
你是怎么解决这个问题?我有一个类似的用例,我需要用自定义标签在不同的句子中标记已知的短语。 – AgentX 2017-07-17 09:38:20