众包可靠性测量 - 垃圾邮件/欺诈检测

我想从网站用户那里收集某种地理信息 - 对于给定的一组数据，他们将标记复选框，指示地点是否已经给予属性。是否有任何工具/框架基于整个收集的数据集（可能还有其他信息）来检测欺诈或垃圾邮件提交？我想获得过滤，更可靠的数据。众包可靠性测量 - 垃圾邮件/欺诈检测

2011-08-26 tomash

有现有的众包工具，如亚马逊的Mechanical Turk（大多数，顺便说一句，是不免费的）一些服务/工具/框架。你对此感兴趣吗？或者你想自己做点什么？ – etov

@etov - 我认为从收集投票中提取“真相”假设欺诈投票是次要的，并且可以进行统计上的区分 – tomash

不知道如果这是你要求什么，但这里有使用Amazon土耳其人从我的经验的一些技巧：

有几个学术论文处理这样的问题。 here是一个不错的选择。此外，根据以下一般建议，我创建了一个处理我的数据的自定义过程：

a。包括一个未解决的问题，并过滤掉未被回答的情况。自动回答这样的问题很难，对于欺诈者来说，这也可能更加耗时，因而不太吸引人。

b。如果可能的话，不要使用二进制标度（即复选框），而要使用一些等级（例如1-4或1-6）。这会给你更多的数据。

℃。如果可用，请过滤掉填写表单所用时间太短的情况。（尤其有用的，如果你包括那个未解决的问题）

d。如果您有多个用户输入，请检查重复答案，以及始终如一地给出远超平均答案的用户。如果每个用户只提交一个“表单”，请考虑在其中放置多个单元/问题，以便每个用户获得多个提交。

e。如果您每个用户或用户标识只有一个提交，则您的选项更受限制。如果您有足够的数据，我可以建议过滤outliars（例如数据点远离平均值3个标准偏差）。

f。在所有过滤之后，检查数据中的一致或不一致（例如，通过检查数据点的多少比例落在平均值的x个标准偏差范围内）。在达成一致的情况下，使用平均值;如果不同意，请收集更多数据。

希望它能帮助，

2011-08-29 16:55:50 etov

我在考虑自定义数据收集和过滤（不使用MTurk），但所有建议也非常有价值，谢谢！ – tomash

回答