过滤掉3个数据集之间的常见观测值

-2

我有3个数据集（txt.gz），我已经对它们进行了子集化，使其仅包含p值为1 * 10^-6或更小的观测值。过滤掉3个数据集之间的常见观测值

下一步是检查一个通用名称变量（名称是指SNPs，遗传学）。

当前表：

name  pval 

rs2575876 8.20660e-07 

rs11834972 4.20460e-07 

rs11050138 4.23080e-07 

rs12313631 7.13600e-07 

rs485538 5.99060e-07

任何想法？

来源

2013-04-11 Gen

您可以发布'头（your.data）'所有名称中出现多个数据集？ – Nishanth 2013-04-11 14:47:27

你的问题不清楚。你的三个数据帧格式是什么？（显示你到目前为止的代码将有助于澄清问题）。 “......具有p值的常见SNP中的SNP”是什么意思？ – 2013-04-11 14:47:28

我猜'％in％'是你的朋友。 – eddi 2013-04-11 15:23:46

如果我理解正确：

的B数据库命名表（B $名）将让你看到多少次名字已经被重复。

编辑：试试这个

创建表，其中列出了每个数据集

A2 <名字的独特价值 - 唯一的（一$名）

B2 < - 独特的（B $ name）

c2 < - unique（c $ names）
追加他们

R1 < - rbind（A2，B2，C2）在该表中
检查重复

X < - data.frame（表（R1））
只要你喜欢就操纵数据框。即找到

X [X $名称> 1，]

来源

2013-04-11 15:37:13

其实我有3个不同的数据集，它们使用相同的变量名称（“name”和“pval”），而我想要做的是首先为所有3个数据集筛选出低于1 * 10^-6的pvalues，I有单独的子集。接下来是检查“姓名”下的相同观察结果，例如rs12345存在2个数据集甚至3个。 – Gen 2013-04-11 15:40:37

哦，我明白了。这太有趣了。 – 2013-04-11 15:41:56

是的，它是，我已经尝试了几件事，但他们没有给我任何东西:) – Gen 2013-04-11 15:43:09

过滤掉3个数据集之间的常见观测值

回答

相关问题