我爬过一个HTML页面,我想提取img srcs和一个hrefs。正则表达式来解析HTML imgs
在特定的网站上,它们都被封装在双引号中。
我试过各种各样的正则表达式没有成功。假定双引号内的字符将是[ - \ W /](可打印的字符[A-ZA-Z \ d-_]和/和。)
在蟒:
re.search(r'img\s+src="(?P<src>[\w-/]+_"', line)
隐而不宣” T回流什么,但
re.search(r'img\s+src="(?P[-\w[/]]+)"', line)
返回wayy得多(即,不会在“停止)。
我需要帮助创建预先正确的正则表达式。谢谢!
Obligatory:http://stackoverflow.com/a/1732454/350351 – Daenyth 2012-04-27 15:54:57
确实,不能用正则表达式来解析html,但是你可以在里面找到某些东西,对于快速脚本等等,它可能是正确的工具。 – OlliM 2012-04-27 15:58:00
@达尼,是的,我知道。我已经为定期和上下文无关语法的抽象引理指导了许多人。我试图找到的正则表达式只是标签内的一个字段,这当然是非常规则的。 – 2012-04-27 16:04:49