我想删除基于我的第一列的重复项,让我们假设这是'id'。我需要删除的值是具有最少完整数据的记录。使用熊猫和Python删除重复项
屏幕截图所示,我想根据我列id来删除重复的。我希望删除的重复项取决于其他列中的值。例如lname不能是一个数字。它不能是NA或空白。所以对于这个例子,我想保留中间行并删除所有其他重复项。
如何实现一个智能过滤器,通过保持看起来最干净的记录(基于其他字段中有更清晰的值)来删除重复项。
我正在寻找python中的熊猫库。任何方向将不胜感激。
data = pd.read_csv('x.csv');
data = (data.drop_duplicates(['id'], keep ='last'));
你更容易,如果您发布实际的例子数据,而不是屏幕截图来获得帮助。另外,准确的标准是什么,您的预期产出是什么?你写了你想保留中间行,但在你的屏幕截图中有6行。更具体地说明你的约束条件,并发布[MCVE](https://stackoverflow.com/help/mcve)将加快响应时间。 –