2014-02-09 156 views
-2

我尝试写从谷歌搜索小刮刀脚本,即时通讯写程序,蝙蝠有小问题,我需要的正则表达式从谷歌搜索中提取数据-href的值,请帮我:正则表达式来提取HTML值

为例谷歌搜索的HTML代码:

data-href="www.buxmob.net/index.php?id=577"> 
data-href="www.webopedia.com/TERM/K/keyword.html"> 
data-href="moz.com/beginners-guide-to-seo/keyword-research"> 

只需要出现在这个值的URL,只有这个:

hxxp://www.webopedia.com/TERM/K/keyword.html 
hxxp://moz.com/beginners-guide-to-seo/keyword-research 
hxxp://www.buxmob.net/index.php?id=577 

感谢您

+2

结束不解析与正则表达式HTML“非贪婪的匹配,使用合适的解析器(这使XPath的非常好吃)。 – Wrikken

+1

刮谷歌搜索结果是对他们的TOS。你需要注册一个API密钥,并以这种合法的方式去做。 –

+0

即时使用ubotstudio,不可能使用外部脚本! – pythoncoder

回答

0

,把你给的例子可以

(?:data-href=")(.*?)(?:">) 

见演示在http://regex101.com/r/rB4nS1

相匹配,这并不意味着它是一个好主意,试图解析(普通)HTML用正则表达式 - 但有时,当反应形成良好并且众所周知,你就会摆脱困境。

请注意,您提到您希望hxxp://在字符串前 - 这不是正则表达式的工作,而是属于您用来实现表达式的语言。以上是字符串data-href="后开始,并在下次">