我有一个数据帧,其中包含名称,我试图结合相似的名称。例如:熊猫过滤器/结合相似的字符串值
| name | foo_val |
| --------- | ------- |
| Andrew | 2 |
| Braden | 1 |
| Cheryl | 4 |
| Cheryl :D | 1 |
| Christian | 1 |
| Derrick | 2 |
| Derrick L | 2 |
...
等...在那里我会要合并的行(和foo_val的值);如果内容(如谢丽尔和德里克在上面很相似例如),所以它看起来像下面这样:
| name | foo_val |
| --------- | ------- |
| Andrew | 2 |
| Braden | 1 |
| Cheryl | 5 |
| Christian | 1 |
| Derrick | 4 |
我不知道大熊猫以及我想,但我已经在duplicated
(如df.duplicated('name')
)和groupby
看了以及merge
但我很确定这些不是我想要什么(很可能是错的......)。在那个笔记上,我搜索了很多,但假设之前已经询问过,所以如果我错过了它们,请指出其他问题/答案...
我可以想象一种在纯Python与迭代,但很想知道这是否可能在熊猫...
这个问题的真正诀窍是定义什么算作一个类似的名字。 – Alter
是的,我明白了! –