我有以下问题。我应该使用哪种算法来根据集合对词进行聚类
我有一个包含单词行的大数据集。 所以即
apple,door,wood
window,door,house
boot,pie,dessert
我想创建4个类别出所有这些单词,然后字的一个新行匹配到4个类别中的一个。单行中的单词之间有某种联系,但我没有任何关于如何获得单词的信息。
scikit-learn或其他python包中有一个算法,我可以使用它吗?
编辑:
我看到我给了很少的信息。
单词可以是一个网页中的关键词,然后我想根据这些关键词选择一个类别,这样我可以对下一篇文章的内容提出建议。
但是,我不想创建到很多类别,所以我想结合类别。也就是说,如果结果'狗'与'house'在同一行很多次,那么如果'dog'存在于关键字中,我可以建议'house'。
我不想在前面设置分类,我想首先获取分组,然后创建一个与最佳词相匹配的分类。
就目前而言,您的问题非常不清楚和广泛。什么是类别?你想分类行还是单词?你试过什么了? scikit-learn为许多不同的机器学习算法提供了实现。 –
数据集中的单词是否有所不同?或者你是否发现任何“模式”,比如说经常重复自己的单词?你能计算你拥有的不同单词的数量吗? –
@EliKorvigo我增加了更多信息。我只是从scikit开始,所以还不知道算法。但我想到了kmeans或minibatch,但不知道如何用多个集合来做到这一点。 – user3605780