我的论文项目我将处理一大堆电子邮件。 我需要提取所有头字段,并将它们传送到各种数据结构中,最好是像JSON那样通用的东西。头脑风暴:解析txt电子邮件到结构化对象(JSON等)
现在,我一直在寻找这个,并找到了很多半屁股工作解决方案。 我不想让你告诉我如何做到这一点,只是在桌子上抛出一些想法。
现在我的计划是使用python来解析头字段。 我选择python是因为它非常好用,而且我有过使用python的经验。此外,还有很多图书馆。 问题是python的官方电子邮件处理不适用于重复字段,这对我很重要。特别是对于标题“Received:”,因为它允许跟踪跨多个邮件服务器的电子邮件旅行。
官方库忽略多个领域,只是存储的第一个-.-”
任何想法,你会如何解决这个