2017-01-25 79 views
0

我有一个像这样的独特平面文件。 ID和名称由制表符分隔,而随后的第二场已多逗号分隔值:从具有多个值的列中返回唯一匹配

ID1 \t name1,name2,name3 
ID2 \t name1,name1,name1,name4 
ID3 \t name1,name2,name2,name3 

我正在寻找一种方式来修整第二场让每名只有每排一次出现。像这样:

ID1 \t name1,name2,name3 
ID2 \t name1,name4 
ID3 \t name1,name2,name3 
+2

这似乎相当简单。当你尝试时出了什么问题? – DSM

+0

你尝试了什么? – Inian

+0

我正在阅读排序和uniq的人,因为这些是我以前使用的,但无法找出使其工作的方式。 @ Trelzevir的解决方案非常好,我不知道为什么我没有想到这个 –

回答

2

一旦你拿到了第二场,使用set()

set(["name1","name1","name1","name4"]) 

返回:

{'name1', 'name4'} 
+0

啊,谢谢!老实说,我不知道为什么我没有想到这一点。 –