2013-03-06 100 views
0

我有一个作者列表。他们可能被列为查找第一个字重复(匹配相似的姓氏)

  • LASTNAME, FIRSTNAME
  • LASTNAME, F.
  • LASTNAME, F

这将是一个正则表达式来查找所有具有相同LASTNAME的记录?这样我就可以决定是否合并记录,或者如果它们是不同名字的作者,则可以将它们分开。找到姓氏

/^\w+/ 

使用此:

+1

您使用哪种编程语言?该列表的格式是什么?列表是否已排序? – 2013-03-06 08:02:53

+0

@Shachi:你的编辑完全摧毁了这个问题。请小心点。无论谁批准他的编辑,请观看你在做什么。 – 2013-03-06 08:07:13

+1

哦,我真的很抱歉。 @TimPietzcker感谢您为此发出了亮点。我会非常小心,这不会发生。 (我必须说错误的编辑不应该被批准。) – Shachi 2013-03-06 08:28:54

回答

0

这将始终在该行的开头,这应该是最后一个名字的第一个字相匹配。然后执行如下操作:

  • 将最后的名称和全名存储在您的编程语言中可用的关联数组或等效结构中。
  • 每当你来到一个新行,检查你的名单中是否已经存在姓氏。
    • 如果存在,比较全名并决定要保留哪一个。
    • 如果不存在,请添加它。
+0

非常感谢!我会试试看。我正在使用Gephi来可视化GraphML数据,并且我需要清理那里的一些文献计量条目。 Gephi允许基于正则表达式搜索创建新列。 – 2013-03-08 08:06:34

相关问题