2016-11-18 37 views
0

我有一个数据框包含州名称和城市名称。但是,城市名称不仅仅是匹兹堡,费城等。城市名称可能包含我称之为威望名称的名称。这里是一个小样本熊猫如何消除重复的行之前,他们发生

State   RegionName 
Pennsylvania  California (California Uni... 
Pennsylvania  Carlisle (Dickinson College) 
Pennsylvania  Cecil B. Moore, Philadelphia, also... 
... 
Pennsylvania  University City, Philadelphia (Drexel Universi... 

我需要通过删除括号内的信息等来清理这些数据。但我的问题是这样的。塞西尔B.摩尔和大学城都是费城的一部分。如果我重新命名这些值,那么在我的数据集中有两排宾夕法尼亚州费城。我不想那样。

因此,从数据科学的角度来看,简单地删除其中一行并重命名另一个中的RegionName值是可以接受的吗?或者,在大熊猫中,有一些方法可以在清理和重命名后“合并”这些行。

该数据最终将按州和地区名称(城市)结合住房价值。

谢谢

+0

你想保留子城市地区以及城市名称,或只是城市名称?如果您只想保留城市名称,则可以在摄取后删除重复项目。 – James

+0

@詹姆斯如果我理解正确,那么这两个城市都将重新命名为费城,其他所有信息将从数据中清除。那么你是说drop_duplicates()会移除其中一个离开另一个? –

+0

是的。如果你的第1,3和7行有Pennsylvania,Philadelphia为State,RegionName,那么使用'drop_duplicates()'将删除第3和第7行。这是假设没有其他列。 – James

回答

4

只需摄取所有的行,然后用.drop_duplicates()从数据帧删除重复的行。

+0

工作完美。非常感激 –