斯坦福核心NLP使用PTB Tokenizer进行标记。但是,我想实现我自己的标记器。作为其中的一部分,在我们指定注释器的属性文件中,我没有把tokenize设置为我想自己编写Tokenizer并将输出令牌放在 CoreAnnotations.TokensAnnotation.class
,set
方法中,以便ssplit稍后使用它们。但是,当我尝试运行这个程序是失败的说ssplit不能存在没有标记器。我想知道是否有任何程序来实现自定义的Tokenizer?从Stanfordcorenlp库实现标记器的标准程序是什么?
0
A
回答
0
请确保您创建了一个使用自定义标记的Annotator(Annotator接口在edu/stanford/nlp/pipeline中);在这个例子中,我们会打电话给您的自定义注释MyTokenizerAnnotator,并假设它是在包org.foo
当您生成StanfordCoreNLP管道,请务必将其添加到属性:
props.set("customAnnotatorClass.mytokenize" , "org.foo.MyTokenizerAnnotator")
当您为您的管道注释,而不是“令牌化”,把“我的记号化”
props.set("annotators", "mytokenize, ssplit, pos, lemma")
确保Annotator.TOKENIZE_REQUIREMENT添加到该集合MyTokenizerAnnotator的requirementsSatisfied()方法回报,这将告诉您的自定义标记生成器满足了记号化需求的管道,将停止SSPLIT投诉
供您参考,这里有一些相关的类的javadoc,你一定要看看TokenizerAnnotator.java实施如果你要建立自己的分词:
http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/pipeline/Annotator.html
http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/pipeline/TokenizerAnnotator.html
请让我知道,如果你需要更多帮助!
相关问题
- 1. D标准库的现状是什么?
- 2. SystemJS实现什么标准?
- 3. 什么是C++中的标准延迟/终结器实现?
- 4. 为什么度量标准实现需要性能度量标准库?
- 5. 为什么GNU C Library称为C标准库的实现?
- 6. 实用程序库的日志记录标准
- 7. 为什么C++标准库不包含哈希表实现?
- 8. 为什么Java标准库不实现toString方法?
- 9. 为什么Web服务是实现SOA的首选标准?
- 10. 什么是toString实现的最佳标准样式?
- 11. D库的实际标准位置是什么
- 12. NLTK感知器标记器的标记集是什么?
- 13. LLVM统一标准类库的实现
- 14. 原因四标准库的实现
- 15. 标记Docker镜像的标准是什么?
- 16. 将域模型标记为贫血的标准是什么?
- 17. 什么是从Oracle函数返回记录的标准方式?
- 18. 标准库和标准模板库有什么区别?
- 19. 从现有NSArray创建新NSArray的标准约定是什么?
- 20. 什么是一些C++标准库使用最佳实践?
- 21. 标准库实现可以专用于标准类型吗?
- 22. 什么是为应用程序设置数据库的更好方法?标准化与现实世界
- 23. 什么ECMAScript 6/7标准在Firefox中实现而不是在Chrome中实现?
- 24. 标记界面的内部实现是什么?
- 25. Python标准库真的是标准吗?
- 26. 关于C++标准库实现
- 27. 什么是“标记的DFA”?
- 28. 如何实现一个包的标准记录器和argparser
- 29. Android - 现在实现该选项卡的标准方式是什么?
- 30. 什么是Groovy Console/jdbc驱动程序标准的类路径?