我有一个类似下面的表格,其中每个聚类(第1列)包含具有开始(第2列)和结束(第3列)坐标的小区域中不同元素(第4列)的注释。对于每个条目,我想添加一个对应于距离该集群中最近的其他元素的距离的列。但我想排除群集中的一对元素具有相同的开始/结束坐标或重叠区域的情况。我怎样才能为这样的数据框产生这样的额外nearest_distance
列?如何找到距离最近的非重叠元素的距离?
cluster-47593-walk-0125 252 306 AR
cluster-47593-walk-0125 6 23 ZNF148
cluster-47593-walk-0125 357 381 CEBPA
cluster-47593-walk-0125 263 276 CEBPB
cluster-47593-walk-0125 246 324 NR3C1
cluster-47593-walk-0125 139 170 HMGA1
cluster-47593-walk-0125 139 170 HMGA2
cluster-47593-walk-0125 207 227 IRF8
cluster-47593-walk-0125 207 227 IRF1
cluster-47593-walk-0125 207 245 IRF2
cluster-47593-walk-0125 207 227 IRF3
cluster-47593-walk-0125 207 227 IRF4
cluster-47593-walk-0125 207 227 IRF5
cluster-47593-walk-0125 207 227 IRF6
cluster-47593-walk-0125 204 245 IRF7
cluster-47593-walk-0125 13 36 PATZ1
cluster-47593-walk-0125 14 143 PAX4
cluster-47593-walk-0125 4 25 RREB1
cluster-47593-walk-0125 73 87 SMAD1
cluster-47593-walk-0125 73 87 SMAD2
cluster-47593-walk-0125 73 87 SMAD3
cluster-47593-walk-0125 71 89 SMAD4
cluster-47593-walk-0125 11 40 SP1
cluster-47593-walk-0125 11 38 SP2
cluster-47593-walk-0125 7 38 SP3
cluster-47593-walk-0125 11 38 SP4
cluster-47593-walk-0125 13 33 GTF2I
cluster-47593-walk-0125 281 352 YY1
cluster-47586-walk-0222 252 306 AR
cluster-47586-walk-0222 6 23 ZNF148
[...]
如果可以保证列2 <=栏3总是,那么至少可以减少问题检查符合标准'MAX(数据[条目,3 ]) data [i,3]))'。然后,可能会寻找'哪(min(data [i,2] - selected_data [,3])'等等。 – 2012-07-16 15:27:50