2017-07-07 175 views
1

我想用原始数据框(数据框1)中的行填充熊猫数据框(Dataframe 2)。我在下面创建了一个模拟Dataframe 1:创建一个每个值只有一行的新数据框

Ref Number Name 
1   Alpha 
2   Alpha 
3   Alpha 
4   Alpha 
5   Beta 
6   Beta 
7   Beta 
8   Charlie 

我想删除其中前一行中发生值Name的行。即Dataframe 2应该看起来像

Ref Number Name 
1   Alpha 
5   Beta 
8   Charlie 

Ref Number在这种情况下无关紧要。在我的工作文件中,我正计划添加一列来指定某些内容,然后在应用某个函数时引用该内容。

我会如何去熊猫这方面呢?我有一个约5000行的CSV,我想限制到~1000的第二个数据帧。

+0

你是什么意思“REF号码也无所谓”是什么意思?它是多余的吗?在那种情况下,为什么还要使用表格格式呢?你只需要一组值(set)(df [“Name”])''。 – Denziloe

回答

1

使用drop_duplicates与指定列Name为找到重复:

df = df.drop_duplicates('Name') 
print (df) 
    Ref Number  Name 
0   1 Alpha 
4   5  Beta 
7   8 Charlie 
+0

谢谢!加了! – christaylor

+9

我们应该可以找到一个体面的[重复](https://stackoverflow.com/search?q=df.drop_duplicates).. – DSM

相关问题