我想用搜索查询日志做一些研究。我的第一个兴趣是发现趋势。例如:在冬天,人们经常感冒。所以我想在冬天我们可以看到这类查询的增长。查找搜索引擎查询日志的趋势
如何我想探测的发展趋势:
- 使用apriory算法或收获的人设置一个频繁项。
- 在一个时间范围内的每个组(一小时,一天等)
- 使用线性回归来发现相对函数变化 的计数数,如果这是一个回归AX + b,则我们只是计算(A *(FIRST_DATE )+ b)/(A *(SECOND_DATE)+ b)
所以我有一个问题: 这很难在大型数据集(我有百万的查询)的设置中发现频繁项。我已经实施了apriory算法,但它的工作速度很慢,支持度低(例如,对于200k查询中的2个查询可能需要一天)
对我而言,什么是最佳算法?也许我可以用另一种方式解决我的任务?
@Yavar我只有一台机器(或两个)。所以这就是为什么我不能分发。 – Neir0