我必须实现一个模块,我需要将具有类似含义的语句(字符串)分组到不同的聚类中。我读了关于k-means,EM聚类等等。但是我面临的问题是这些算法是用图上的向量点解释的。我没有得到这些算法如何实现具有类似含义的句子(字符串)。请建议一些适当的方法。字符串聚类算法
例如, 让我们考虑一个课堂场景.. 1)老师有充足的知识。 2)学生明白教师教什么。 3)老师有时在课堂上守时。 4)老师在课堂上可以听到。
可以说我们有这4句话。然后看他们,我们可以说,句子1和2具有相似的含义。但是句子3和4既不相关,也不相关。这样我需要对句子进行分类。那么怎么做呢?
这是一个很大的问题。我认为Google的Udacity的“深度学习”课程提供了一个很好的免费的使用'tensorflow'与python进行文本挖掘的介绍。 –
我不认为这个问题有一个最佳答案,所以我投票决定将它关闭得太宽泛。这就是说 - 看一下“Word to Vector”或“Word Embedding”模型,这些模型在这方面显示出很多承诺。 – templatetypedef