我有一个数据,表示操作员对工业设备上执行的各种活动的评论。这些评论可能反映了日常维护/替换活动,或者可能表示出现了一些损害,并且必须对其进行修复以纠正损坏。 我有一套200,000句子,需要分为两个桶 - 修复/定期维护(或未确定)。这些没有标签,因此寻找无监督的基于学习的解决方案。无监督学习句子
某些样本数据,如下所示:
“电机线圈损坏.Replaced马达” “偶尔启动问题代替开关”
“带安装看到新带裂纹”“代替皮带“ ”油和清洁完成“。 “做了预防性维护时间表”
前三个句子必须标记为修复,而第二个三个作为定期维护。
什么是对这个问题的一个好方法。尽管我有一些机会学习的机会,但我是基于NLP的机器学习的新手。
我看到与此相关的https://pdfs.semanticscholar.org/a408/d3b5b37caefb93629273fa3d0c192668d63c.pdf https://arxiv.org/abs/1611.07897
多篇论文,但想了解是否有任何标准的方法来这样的问题
感谢您的选择,我会探讨的选项。但有一个问题,做KMeans,什么将是一个很好的建议,矢量化的句子,使它仍然保留的含义。 –
“意义”很难保存(并且定义!),但一般NGrams可以帮助维护上下文,因为它保留了一定的顺序。很多时候,我会同时生成BIGrams和Bag of Words“特征”,以便进行聚类。一个挑战是稀疏向量归一化,因为显然每个句子不是一个“实值”向量空间。对于少量的数据,你可以很容易地对它们进行归一化。 – markg