我需要帮助从网页中提取信息。我给网址,然后我需要提取信息,如联系电话号码,地址,href,人名等。我能够提供完整的页面源提供的URL与已知标签。但是我需要一个通用的源代码来从任何URL中提取这些数据。我使用正则表达式来提取电子邮件,例如如何使用json或xml格式的python从网页中提取信息?
import urllib
import re
#htmlfile=urllib.urlopen("http://www.plainsboronj.com/content/departmental-directory")
urls=["http://www.plainsboronj.com/content/departmental-directory"]
i=0
regex='\b[A-Za-z0-9._%+-][email protected][A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b'
pattern=re.compile(regex)
print pattern
while i<len(urls):
htmlfile=urllib.urlopen(urls[i])
htmltext=htmlfile.read()
titles=re.findall(pattern,htmltext)
print titles
i+=1
这给了我空的列表。任何帮助提取所有信息,如上所述,将不胜感激。 这个想法是给出一个URL,并提取所有的信息,如姓名,电话号码,电子邮件,地址等以json或xml格式。谢谢大家...!!
你确定你的正则表达式是正确的吗?我已经下载了您正在访问的文件,并根据您的表达式进行了过滤,结果随我正在使用的正则表达式的类型(我使用Ultra Edit文本编辑器(Perl和UNIX正则表达式)和Cygwin UNIX模拟器)而变化。请注意,正则表达式语法取决于底层技术。 – Dominique
当我在python脚本中运行它时,正则表达式工作正常。请给我一些建议,以实现我的其余目标。我甚至将http://regexr.com/上的正则表达式与示例进行了比较,工作正常 –