熊猫如何消除重复的行之前，他们发生

我有一个数据框包含州名称和城市名称。但是，城市名称不仅仅是匹兹堡，费城等。城市名称可能包含我称之为威望名称的名称。这里是一个小样本熊猫如何消除重复的行之前，他们发生

State   RegionName 
Pennsylvania  California (California Uni... 
Pennsylvania  Carlisle (Dickinson College) 
Pennsylvania  Cecil B. Moore, Philadelphia, also... 
... 
Pennsylvania  University City, Philadelphia (Drexel Universi...

我需要通过删除括号内的信息等来清理这些数据。但我的问题是这样的。塞西尔B.摩尔和大学城都是费城的一部分。如果我重新命名这些值，那么在我的数据集中有两排宾夕法尼亚州费城。我不想那样。

因此，从数据科学的角度来看，简单地删除其中一行并重命名另一个中的RegionName值是可以接受的吗？或者，在大熊猫中，有一些方法可以在清理和重命名后“合并”这些行。

该数据最终将按州和地区名称（城市）结合住房价值。

谢谢

来源

2016-11-18 Paul Stoner

你想保留子城市地区以及城市名称，或只是城市名称？如果您只想保留城市名称，则可以在摄取后删除重复项目。 – James

@詹姆斯如果我理解正确，那么这两个城市都将重新命名为费城，其他所有信息将从数据中清除。那么你是说drop_duplicates（）会移除其中一个离开另一个？ –

是的。如果你的第1,3和7行有Pennsylvania，Philadelphia为State，RegionName，那么使用'drop_duplicates（）'将删除第3和第7行。这是假设没有其他列。 – James

只需摄取所有的行，然后用.drop_duplicates()从数据帧删除重复的行。

来源

2016-11-18 17:08:42 James

工作完美。非常感激 –

熊猫如何消除重复的行之前，他们发生

回答

相关问题