2017-03-23 93 views
1

我正在处理一个项目,其中提供了一个输入文件categories.txt,它要求首先输出所有长度为1的频繁类别,最小支持为0.01。然后到所有频繁的分类集。对类别数据的Apriori算法

我们的目标是在一个文件中写入与绝对支持(计数)以下的数据,例如:

2851:快餐;餐厅

我找回我的所有数据作为一个列表的列表

data = [] 
with open("categories.txt") as file: 
for line in file: 
    line = line.replace("\n", "") 
    line = line.split(";") 
    data.append(line) 

我的问题是,我不知道该怎么应对第二种情况,发现他们绝对支持所有类别中的所有组合(不支持百分比)。我还没有在Python中找到任何好的Apriori库。

感谢您的帮助。

+1

这是要么偏离主题(要求图书馆推荐),要么太宽泛(要求实施非平凡机器学习算法)。请编辑您的问题,以便它既是主题又是重点。请参阅[帮助/话题]。 –

回答

0

寻找一个频繁项集在python挖掘图书馆在这里,请:Mining Frequent Itemsets PY Library

但我建议你不要使用Apriori算法挖掘频繁项集。与其他频繁项目集挖掘算法相比,速度很慢。至少检查一下在链接库中更高效并且实现的FP-Growth算法。