我在R中问了这个问题,并得到了很多答案,但是所有这些答案在运行了几个小时后都会让我的4Gb Ram计算机崩溃,或者他们需要很长时间才能完成。 faster way to compare rows in a data frame快速比较数据集中的行的方法
有人说这不是在R做的工作。因为我不知道C和我在Perl上有点流利,所以我会在这里问。
我想知道是否有一种快速的方法来比较大型数据集的每一行与其他行,以确定具有特定同源性程度的行。比方说,下面是简单的例子,我想同源性> = 3
data:
sample_1,10,11,10,13
sample_2,10,11,10,14
sample_3,10,10,8,12
sample_4,10,11,10,13
sample_5,13,13,10,13
输出应该是这样的:
output
sample duplicate matches
1 sample_1 sample_2 3
2 sample_1 sample_4 4
3 sample_2 sample_4 3
也许尝试['领带::阵列:: CSV'](HTTP:// search.cpan.org/perldoc?Tie%3A%3AArray%3A%3ACSV) – TLP
它花了我30多分钟来写一个脚本,所以不打扰:) – Vorsprung
命令重要吗?例如10,11,10,13和11,11,10,13应该返回3个匹配还是0个匹配? – psxls