2016-12-16 42 views
0

我有一堆线,他们可以分为两种类型。如何将单词序列中的句子和非句子类型分类?

字序列类型:

  1. 它是一种有效的英语句子:

    经验: - 作为一个坚定的软件工程师有超过5年的微软技术和商业智能 经验工具。

  2. 不是一个有效的英语句子(只字序):
    例子:

    • 客户:PMP汽车零部件

    • HTML,CSS样式表,Java脚本,JSP

    • 组织:萨蒂扬计算机服务有限公司,| ? |名称:软件工程师| ? |时间:03/2006 03 /2010 | ? |
    • SLC - STC优异认证 - 2006年萨蒂扬计算机服务有限公司

我使用机器学习task.i可以通过NLTK使用POS标签作为特征进行分类蟒。在这个问题中可以应用哪种算法?

更新:
应该使用哪些特征来预测它的一个句子是否不是?

回答

1

您可以使用treetaggerwrapper: Reathedocs of TreetaggerWrapper

从文档应该是易于使用:

import pprint # For proper print of sequences. 
import treetaggerwrapper 
#1) build a TreeTagger wrapper: 
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en') 
#2) tag your text. 
tags = tagger.tag_text("This is a very short text to tag.") 
pprint.pprint(treetaggerwrapper.make_tags(tags)) 

检查,如果森泰斯持有名词(标签NN),动词(标签VBZ )和适当的句子标点符号(标记SENT