给定一个数据框,我想获得重复的索引,这些索引在列中没有重复值,并查看哪些值不同。熊猫:获取重复索引
具体来说,我有这样的数据帧:
import pandas as pd
wget https://www.dropbox.com/s/vmimze2g4lt4ud3/alt_exon_repeatmasker_intersect.bed
alt_exon_repeatmasker = pd.read_table('alt_exon_repeatmasker_intersect.bed', header=None, index_col=3)
In [74]: alt_exon_repeatmasker.index.is_unique
Out[74]: False
而且有些指标已经在第9列(DNA重复元素在此位置的类型)重复值,我想知道是什么各个位置的不同类型的重复元素(每个索引=基因组位置)。
我猜这将需要某种groupby
,并希望一些groupby
忍者可以帮助我。
为了进一步简化,如果我们只有索引和重复型,
genome_location1 MIR3
genome_location1 AluJb
genome_location2 Tigger1
genome_location3 AT_rich
所以输出我想看到所有重复的索引和他们的重复类型,例如:
genome_location1 MIR3
genome_location1 AluJb
编辑:加入玩具例如
嗨,通常这是很好的做法,简化问题,尽可能创造具有输入和期望的输出玩具的例子。这样的问题的答案要快得多,对未来的读者会有用。 –