0
我知道我可以用DocumentPreprocessor
将文本拆分成句子。但是如果要将标记文本转换回原始文本,它不会提供足够的信息。所以我必须使用PTBTokenizer
,它有一个invertible
选项。如何将PTBTokenizer的结果分成几个句子?
但是,PTBTokenizer
只是返回文档中所有令牌(CoreLabel
)的迭代器。它不会将文档分成多个句子。
PTBTokenizer的输出可以进行后期处理来划分文本的句子。
但这显然不是微不足道的。
Stanford NLP库中是否有一个类可以输入一个CoreLabel
的序列并输出句子?这就是我的意思:
List<List<CoreLabel>> split(List<CoreLabel> documentTokens);
请问'前()','后()','beginPosition()'和'终端位置()'执行(即不只是返回'null's)在产生的'CoreMap's? –
是的,所有这些都正在设置。 – StanfordNLPHelp
谢谢。有用! –