我正在寻找一种方法来使用Ruby从URL列表中提取LinkedIn个人档案页面。目前,我遍历的URL和匹配他们对这个表达式:在Ruby正则表达式中否定字符串
/^http:\/\/.+\.linkedin.com\/(pub|in)/
然而,在LinkedIn的个人资料目录网页的网址如下:
http://www.linkedin.com/pub/dir
,所以我希望避免任何其中包含pub/dir路径的链接。我知道可以否定Ruby正则表达式中的字符类,如[^ abc]匹配任何不是abc的字符。有没有办法对字符串做同样的事情?即匹配除“目录”以外的任何字符序列?
什么格式的URL列表在?另外:看起来你忘了逃离.com – Jostein
谢谢,我忘了逃避那个点,但那不是问题。 –