如何将单词序列中的句子和非句子类型分类？

我有一堆线，他们可以分为两种类型。如何将单词序列中的句子和非句子类型分类？

字序列类型：

它是一种有效的英语句子：

经验： - 作为一个坚定的软件工程师有超过5年的微软技术和商业智能经验工具。
不是一个有效的英语句子（只字序）：
例子：
- 客户：PMP汽车零部件
- HTML，CSS样式表，Java脚本，JSP
- 组织：萨蒂扬计算机服务有限公司，| ？ |名称：软件工程师| ？ |时间：03/2006 03 /2010 | ？ |
- SLC - STC优异认证 - 2006年萨蒂扬计算机服务有限公司

我使用机器学习task.i可以通过NLTK使用POS标签作为特征进行分类蟒。在这个问题中可以应用哪种算法？

更新：
应该使用哪些特征来预测它的一个句子是否不是？

来源

2016-12-16 Analystanand

您可以使用treetaggerwrapper： Reathedocs of TreetaggerWrapper

从文档应该是易于使用：

import pprint # For proper print of sequences. 
import treetaggerwrapper 
#1) build a TreeTagger wrapper: 
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en') 
#2) tag your text. 
tags = tagger.tag_text("This is a very short text to tag.") 
pprint.pprint(treetaggerwrapper.make_tags(tags))

检查，如果森泰斯持有名词（标签NN），动词（标签VBZ ）和适当的句子标点符号（标记SENT）

来源

2016-12-16 14:07:07

如何将单词序列中的句子和非句子类型分类？

回答

相关问题