对类别数据的Apriori算法

我正在处理一个项目，其中提供了一个输入文件categories.txt，它要求首先输出所有长度为1的频繁类别，最小支持为0.01。然后到所有频繁的分类集。对类别数据的Apriori算法

我们的目标是在一个文件中写入与绝对支持（计数）以下的数据，例如：

2851：快餐;餐厅

我找回我的所有数据作为一个列表的列表

data = [] 
with open("categories.txt") as file: 
for line in file: 
    line = line.replace("\n", "") 
    line = line.split(";") 
    data.append(line)

我的问题是，我不知道该怎么应对第二种情况，发现他们绝对支持所有类别中的所有组合（不支持百分比）。我还没有在Python中找到任何好的Apriori库。

感谢您的帮助。

来源

2017-03-23 glouis

这是要么偏离主题（要求图书馆推荐），要么太宽泛（要求实施非平凡机器学习算法）。请编辑您的问题，以便它既是主题又是重点。请参阅[帮助/话题]。 –

寻找一个频繁项集在python挖掘图书馆在这里，请：Mining Frequent Itemsets PY Library

但我建议你不要使用Apriori算法挖掘频繁项集。与其他频繁项目集挖掘算法相比，速度很慢。至少检查一下在链接库中更高效并且实现的FP-Growth算法。

来源

2017-04-30 13:34:56 n01dea

对类别数据的Apriori算法

回答

相关问题