2013-04-11 76 views
-2

我有3个数据集(txt.gz),我已经对它们进行了子集化,使其仅包含p值为1 * 10^-6或更小的观测值。过滤掉3个数据集之间的常见观测值

下一步是检查一个通用名称变量(名称是指SNPs,遗传学)。

当前表:

name  pval 

rs2575876 8.20660e-07 

rs11834972 4.20460e-07 

rs11050138 4.23080e-07 

rs12313631 7.13600e-07 

rs485538 5.99060e-07 

任何想法?

+1

您可以发布'头(your.data)'所有名称中出现多个数据集? – Nishanth 2013-04-11 14:47:27

+3

你的问题不清楚。你的三个数据帧格式是什么? (显示你到目前为止的代码将有助于澄清问题)。 “......具有p值的常见SNP中的SNP”是什么意思? – 2013-04-11 14:47:28

+0

我猜'%in%'是你的朋友。 – eddi 2013-04-11 15:23:46

回答

1

如果我理解正确:

的B数据库命名表(B $名)将让你看到多少次名字已经被重复。

编辑:试试这个

  1. 创建表,其中列出了每个数据集

    A2 <名字的独特价值 - 唯一的(一$名)

    B2 < - 独特的(B $ name)

    c2 < - unique(c $ names)

  2. 追加他们

    R1 < - rbind(A2,B2,C2)在该表中

  3. 检查重复

    X < - data.frame(表(R1))

  4. 只要你喜欢就操纵数据框。即找到

    X [X $名称> 1,]

+0

其实我有3个不同的数据集,它们使用相同的变量名称(“name”和“pval”),而我想要做的是首先为所有3个数据集筛选出低于1 * 10^-6的pvalues,I有单独的子集。接下来是检查“姓名”下的相同观察结果,例如rs12345存在2个数据集甚至3个。 – Gen 2013-04-11 15:40:37

+0

哦,我明白了。这太有趣了。 – 2013-04-11 15:41:56

+0

是的,它是,我已经尝试了几件事,但他们没有给我任何东西:) – Gen 2013-04-11 15:43:09