NLP和Ruby来描述写作质量

我想拍摄一下在我的应用中将传入文档表征为“好”还是“差”。我意识到这并非易事，但即使是粗略的想法也是有用的。我觉得要做到这一点的方法是通过两个类的朴素贝叶斯分类器，但我很乐意提供建议。所以两个问题：NLP和Ruby来描述写作质量

谢谢！

2011-02-14 Dave G

你可能会尝试使用词汇向量分析。讨论了一些在这里：

基本上你建立你认为“写得很好”或“写得不好”和计数的某些词的频率文本的语料库。为每一个制作一个归一化的矢量，然后计算它们与每个传入文档的矢量之间的距离。我不是统计学家，但我被告知它与贝叶斯过滤类似，但似乎更好地处理拼写错误和异常值。

这并不完美，无论如何。根据你需要的准确度，你可能仍然需要人类做出最终的判断。但是，我们将它作为一个预过滤器来减少审阅者的数量，运气不错。

2011-02-14 18:02:49 seriousken

Ken-您是否在使用特定的库来完成此操作？或者只是手工编码？看起来像一个好地方开始。 – 2011-02-14 18:08:28

你可能会觉得这个Burstein, Chodorow, and Leacock on the Criterion essay evaluation system有趣的非常高层次的概述了一个特定的系统如何做文章评估以及风格校正。

2011-02-14 18:08:18

另一个简单的检出算法是Flesch-Kincaid可读性度量。它使用非常广泛，应该很容易实现。我假设其中一个Ruby NLP libraries有音节方法。

2011-02-14 19:23:21

回答