1

我想从网站用户那里收集某种地理信息 - 对于给定的一组数据,他们将标记复选框,指示地点是否已经给予属性。是否有任何工具/框架基于整个收集的数据集(可能还有其他信息)来检测欺诈或垃圾邮件提交?我想获得过滤,更可靠的数据。众包可靠性测量 - 垃圾邮件/欺诈检测

+0

有现有的众包工具,如亚马逊的Mechanical Turk(大多数,顺便说一句,是不免费的)一些服务/工具/框架。你对此感兴趣吗?或者你想自己做点什么? – etov

+0

@etov - 我认为从收集投票中提取“真相”假设欺诈投票是次要的,并且可以进行统计上的区分 – tomash

回答

2

不知道如果这是你要求什么,但这里有使用Amazon土耳其人从我的经验的一些技巧:

有几个学术论文处理这样的问题。 here是一个不错的选择。 此外,根据以下一般建议,我创建了一个处理我的数据的自定义过程:

a。包括一个未解决的问题,并过滤掉未被回答的情况。自动回答这样的问题很难,对于欺诈者来说,这也可能更加耗时,因而不太吸引人。

b。如果可能的话,不要使用二进制标度(即复选框),而要使用一些等级(例如1-4或1-6)。这会给你更多的数据。

℃。如果可用,请过滤掉填写表单所用时间太短的情况。 (尤其有用的,如果你包括那个未解决的问题)

d。如果您有多个用户输入,请检查重复答案,以及始终如一地给出远超平均答案的用户。 如果每个用户只提交一个“表单”,请考虑在其中放置多个单元/问题,以便每个用户获得多个提交。

e。如果您每个用户或用户标识只有一个提交,则您的选项更受限制。如果您有足够的数据,我可以建议过滤outliars(例如数据点远离平均值3个标准偏差)。

f。在所有过滤之后,检查数据中的一致或不一致(例如,通过检查数据点的多少比例落在平均值的x个标准偏差范围内)。在达成一致的情况下,使用平均值;如果不同意,请收集更多数据。

希望它能帮助,

+0

我在考虑自定义数据收集和过滤(不使用MTurk),但所有建议也非常有价值,谢谢! – tomash