2012-02-10 51 views
0

我已经从网页中提取html源码,并想知道如何从该源文件中提取电子邮件地址等文本。使用jsoup像
从html源码中提取电子邮件地址

public static String html2text(String html) { 
    return Jsoup.parse(html).text(); 
} 

但是这会给我很多不需要的文本,以及即时通信思考。

+0

你正在使用java我猜,但你没有在问题中标记它。你也可以使用JavaScript/jQuery?这是非常简单的使用正则表达式,但我没有经验的Java。 – elclanrs 2012-02-10 05:59:57

+0

我正在使用java。忘了提到这一点。 – SoH 2012-02-10 07:38:30

回答

0

您可以去除所有标签(除非电子邮件位于标签内)。然后,应用正则表达式或检查每个单词是否符合电子邮件模式。如果在单词中包含@,并且在后面找到.,我通常会将其标记为电子邮件。根据标准电子邮件格式,许多电子邮件将不匹配(例如,"hello [email protected]")。是的电子邮件支持@之前的空格字符!

0

正如Shiplu所说,我认为最好的解决方案是使用正则表达式,如果您使用的是Java,请查看Pattern和Matcher类。

相关问题