2014-10-12 45 views
2

我有两个按发生次数排序的单词列表斯皮尔曼等级与缺失值的相关性?

排序是通过计数在不同时间点采样的两个文件中的每个单词生成的。

我想计算一下spearman来查看第一个文件在第二个文件中的排列顺序。

例如:

文件一:1)2)去3)工作

文件B:1)2)工作3)去

因为排序是不同的我会没有达到1.0的得分,但还有一个暗示这两个样本非常相似

我的问题现在缺少值。文件B中可能不存在文件A的一个词。在这种情况下,我可以使用spearman排名吗?或者是另一种更适合的相关性衡量标准?

回答

2

说到排名,在你的应用程序中,你不需要缺少值。当一个单词出现在一个文件中但没有出现在另一个文件中时,您可以在最后一个文件中排名(或等于多个缺失值的最后排名)。

但是,我不确定对许多缺失值的Spearman值的影响(很多并列最后排名)。您可以考虑在原始频率相对频率上使用标准相关/回归,而不是斯皮尔曼系数。

实施例...

说文件x具有M = 113个字和文件y具有n = 234。我们可以建立相对词频表所示:

word x y
is 5/113 23/234 the 4/113 45/234 a 4/113 17/234 farnarkling 1/113 0/234 elbow 0/113 2/234 ... =============================== TOTAL 113/113 234/234

你可以这样计算:

word x y u=x*y v=x*x
is 5/113 23/234 115/26442 25/12769 the 4/113 45/234 180/26442 16/12769 a 4/113 17/234 68/26442 16/12769 farnarkling 1/113 0/234 0/26442 1/12769 elbow 0/113 2/234 0/26442 0/12769 ... ======================================================== TOTAL 113/113 234/234 s=(sum of u) t=(sum of v)

你的答案是由S/T给出。接近m/n的值意味着良好的对应关系。

一些可能有用的链接:

https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php

http://en.wikipedia.org/wiki/Simple_linear_regression