2012-11-14 48 views
-1

我是ML新手。我有一个差异报告,注释表明好的差异和糟糕的差异。示例 -差异报告分类器

旧字符串新的字符串DIFF注解

ABC ABC良好

PQR XYZ坏

LMN WXY好

....

鉴于这种训练集,是否有可能使用分类器来预测未来差异报告的注释,假定它们具有相似的内容。如果是这样,哪个分类器最适合这项任务?

+0

很想知道标记它的原因。谢谢! – user379151

+0

我的旗帜:脱离主题,太理性了。不是编程/ SW特定。 www.cs.stackexchange.com如果任何地方 - 22小时前有帮助 –

回答

1

除非您尝试并调整其参数,否则无法知道哪个是“最佳分类器”。如果你是这个领域的初学者,Weka可以让你开始。

0

分类器不是魔术棒,它可以接受任何东西并且有意义。您需要将数据分解为“特征”或“信号”,然后分类器可以检测出它可以用于在将来自动标记数据的模式。考虑到你给我们的示例训练集(包含3条短线),任何人都不可能猜测分类器可以利用哪些重复出现的共同点来实现其工作。
如果您可以考虑计算机可以研究的一些潜在信号,然后用它们进行智能猜测,那么可能自动识别线路可以获得的注释。分类器的最佳选择主要取决于您选择的信号类型。如果每个字符串中都有反复出现的单词,那么也许朴素贝叶斯可能会做到这一点,如果你想出的信号形成一个数字向量,那么逻辑回归或svm将是很好的选择。