2017-03-03 31 views
1

我的论文项目我将处理一大堆电子邮件。 我需要提取所有头字段,并将它们传送到各种数据结构中,最好是像JSON那样通用的东西。头脑风暴:解析txt电子邮件到结构化对象(JSON等)

现在,我一直在寻找这个,并找到了很多半屁股工作解决方案。 我不想让你告诉我如何做到这一点,只是在桌子上抛出一些想法。

现在我的计划是使用python来解析头字段。 我选择python是因为它非常好用,而且我有过使用python的经验。此外,还有很多图书馆。 问题是python的官方电子邮件处理不适用于重复字段,这对我很重要。特别是对于标题“Received:”,因为它允许跟踪跨多个邮件服务器的电子邮件旅行。

官方库忽略多个领域,只是存储的第一个-.-”

任何想法,你会如何解决这个

回答

1

这个答案也许对你有所帮助:??problem with email parsing with python and multiple Received records

蟒蛇文档的电子邮件的GetItem()说:

注意,如果指定字段出现在一次以上消息的 标题,那些字段值将返回哪些是未定义的 。使用get_all()方法获取所有 现存命名标题的值。

因此,请使用e.get_all(i)而不是e [i]来获取 Received:header的所有值。