2017-05-29 23 views
0

我正在尝试解决以下问题。 给定一个特定的代码片段,我需要回馈代码片段的顶级评论评论,这里我们想给出所有给予类似代码片段的评论。如何测量用编程语言编写的代码片段之间的相似度

我试图将它形成为一个机器学习问题。我认为我们可以使用KNN算法,但在这里我不确定应该如何度量两个代码片段之间的相似度?它是否有任何预先存在的相似性度量?我试着在谷歌搜索,但没有发现任何有用的链接

请帮助包含认为评论可能是相似的有效手段两个字符串之间

+0

您是否试过[FAISS](https://github.com/facebookresearch/faiss)或[nmslib](https://github.com/searchivarius/nmslib)库? – fzk

回答

0

编辑距离。 n-gram 余弦距离可能是有用的,也就是说,您可以提取n-gram(例如3个字符段),构建向量来计算这些n-gram并计算余弦距离。

另一个将是Jaccard相似度(如上)。

相关问题