我已经从网页中提取html源码,并想知道如何从该源文件中提取电子邮件地址等文本。使用jsoup像
从html源码中提取电子邮件地址
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
但是这会给我很多不需要的文本,以及即时通信思考。
我已经从网页中提取html源码,并想知道如何从该源文件中提取电子邮件地址等文本。使用jsoup像
从html源码中提取电子邮件地址
public static String html2text(String html) {
return Jsoup.parse(html).text();
}
但是这会给我很多不需要的文本,以及即时通信思考。
您可以去除所有标签(除非电子邮件位于标签内)。然后,应用正则表达式或检查每个单词是否符合电子邮件模式。如果在单词中包含@
,并且在后面找到.
,我通常会将其标记为电子邮件。根据标准电子邮件格式,许多电子邮件将不匹配(例如,"hello [email protected]"
)。是的电子邮件支持@
之前的空格字符!
正如Shiplu所说,我认为最好的解决方案是使用正则表达式,如果您使用的是Java,请查看Pattern和Matcher类。
你正在使用java我猜,但你没有在问题中标记它。你也可以使用JavaScript/jQuery?这是非常简单的使用正则表达式,但我没有经验的Java。 – elclanrs 2012-02-10 05:59:57
我正在使用java。忘了提到这一点。 – SoH 2012-02-10 07:38:30