0
我有一个可能包含重复的数据集。为了找到数据集中,我把指数为numpy的结构阵列的复制,排序的阵列,从唯一值创建另一个数组,然后比较两个数组的长度:查找两个numpy结构阵列之间的区别
data = np.zeros(t_len, dtype={'names':['date', 'symbol'], 'formats':['i8', 'S16']})
data[:] = [(x['date'], x['symbol']) for x in tbl.iterrows()]
data.sort(order=['date', 'symbol'])
data2 = np.unique(data)
duplicates = False
if len(data) != len(data2):
duplicates = True
print "There are duplicates"
if not duplicates:
print "No duplicates found"
现在,我真的很想确定包含重复项的索引。举例来说,如果我有一个包含数据集:
array([12322323,'IBM'], [12322323,'IBM'], [12322323,'MSFT'], [12322323,'IBM'])
我想知道看到阵列阵列([12322323,“IBM”])
我已经研究过使用独特的,差异功能,但这些似乎并没有完成这项工作。
对于结构化阵列,使用该方法在第一场得到一个新的结构数组,然后检查等领域递归。 –
很简单!谢谢。 –
其实在np.unique中似乎有一个return_counts参数,所以不需要计数... – ntg