电子邮件是否可以通过根据RFC使用它们的一些标题进行重复数据删除?它们的消息标识应该是唯一的吗?电子邮件重复数据删除
有没有什么方法可以计算在下面的重复数据删除方法中错过了1个单一电子邮件的机会(这3个头文件的sha512哈希)?
// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date. $hashStr = $email['message_id']; $hashStr .= $email['subject']; $hashStr .= $email['date']; $uniqueEmailId = hash('sha512', $hashStr);
这是一种关键任务,没有任何一个邮件将被错过的,有机会,我们有进行重复数据删除在多个(> 2)十亿MIME文件。
消息ID在这个意义上不是GUID。它是全球独一无二的,但以特定实施方式构建。通常的技巧是将左边的十六进制timestamp_seq#和@符号右边的主机名组合起来。 请参阅RFC 2822第22-24页 –