我正在寻找一个简单的解决方案,而不是做几个步骤。R - 如何在一列中找到重复的行并在该重复值中添加额外的文本?
我有36个变量的数据帧与几乎3000行,VARS之一是字符类型与名称。它们必须是唯一的。我需要找到具有相同名称的行,并在文本中添加“重复”。我无法删除重复数据,因为它来自关系数据库,我需要该行ID用于其他操作。 我可以找到重复的行并手动重命名文本。但这意味着在查找重复的记录行ID和他们手动替换文本名称。
有没有办法自动将多余的文字添加到重复的名字?我仍然对R很陌生,并且很难做出基于自动条件的功能。
这将是这样的: 从这:
ID name age sex
1 John 18 M
2 Mary 25 F
3 Mary 19 F
4 Ben 21 M
5 July 35 F
要这样:
ID name age sex
1 John 18 M
2 Mary 25 F
3 Mary - duplicated 19 F
4 Ben 21 M
5 July 35 F
难道你们提供一些线索?
非常感谢。
我会建议一种不同的方法,使用额外的列来标记重复项:'df $ duplicated < - duplicated(df $ name)'。除了非常简单和快速以外,它具有易于子集化的优点,例如'subset(df,!duplicated)'。 –
我曾经想过类似的东西,但后来我需要将数据导入到数据库中,并且无法添加列。我绑定到他们发送给我的数据库。感谢您的建议,我一定会在其他作品中使用。 – aoceano