斯坦福大学NLP：如何禁用警告？

斯坦福NLP管道问题，许多警告在产品设置特别令人不安的：斯坦福大学NLP：如何禁用警告？

WARN Untokenizable: � (U+FFFD, decimal: 65533)

有没有一种方法来禁用它们？

来源

2017-07-29 Denis Kulagin

一个能做到这样：

Reader reader = new StringReader(paragraphText); 
DocumentPreprocessor documentPreprocessor = new DocumentPreprocessor(reader, DocumentPreprocessor.DocType.Plain); 

TokenizerFactory<? extends HasWord> factory = PTBTokenizer.factory(); 
factory.setOptions("untokenizable=noneDelete"); 
documentPreprocessor.setTokenizerFactory(factory);

从这里：https://github.com/stanfordnlp/CoreNLP/issues/103#issuecomment-157793500

来源

2017-07-29 09:09:22

如果直接用一个标记工作，答案丹尼斯Kulagin给人好;如果你是在StanfordCoreNLP管道的更高级别的操作，你可以简单地给属性（或等效的命令行选项）：

tokenize.options = untokenizable=noneDelete

（默默地删除所有未知字符），或在后台让他们：

tokenize.options = untokenizable=noneKeep

来源

2017-07-29 22:42:16

斯坦福大学NLP：如何禁用警告？

回答

相关问题