正则表达式来提取HTML值

-2

我尝试写从谷歌搜索小刮刀脚本，即时通讯写程序，蝙蝠有小问题，我需要的正则表达式从谷歌搜索中提取数据-href的值，请帮我：正则表达式来提取HTML值

为例谷歌搜索的HTML代码：

data-href="www.buxmob.net/index.php?id=577"> 
data-href="www.webopedia.com/TERM/K/keyword.html"> 
data-href="moz.com/beginners-guide-to-seo/keyword-research">

只需要出现在这个值的URL，只有这个：

hxxp://www.webopedia.com/TERM/K/keyword.html 
hxxp://moz.com/beginners-guide-to-seo/keyword-research 
hxxp://www.buxmob.net/index.php?id=577

感谢您

个

来源

2014-02-09 pythoncoder

结束不解析与正则表达式HTML“非贪婪的匹配，使用合适的解析器（这使XPath的非常好吃）。 – Wrikken

刮谷歌搜索结果是对他们的TOS。你需要注册一个API密钥，并以这种合法的方式去做。 –

即时使用ubotstudio，不可能使用外部脚本！ – pythoncoder

，把你给的例子可以

(?:data-href=")(.*?)(?:">)

见演示在http://regex101.com/r/rB4nS1

相匹配，这并不意味着它是一个好主意，试图解析（普通）HTML用正则表达式 - 但有时，当反应形成良好并且众所周知，你就会摆脱困境。

请注意，您提到您希望hxxp://在字符串前 - 这不是正则表达式的工作，而是属于您用来实现表达式的语言。以上是字符串data-href="后开始，并在下次">

来源

2014-02-09 05:09:18 Floris

正则表达式来提取HTML值

回答

相关问题