2017-03-07 74 views
0

我正在使用在线工具来抓取我客户的网站并提供其上存在的网页/网址列表。正则表达式从网络爬虫中排除网址

还有就是要排除网页选项,并给出了\?.*page=.*$

正则表达式的例子,我想(从新闻页面本身除了)忽略新闻栏目一切

所以会我去与以下?

\?.*news/.*$

回答

0

如果我理解正确的话,你正在寻找匹配news/foonews/foo/bar,但不news/正则表达式。

可以使用该正则表达式为:.*news/.+

.*串与0个或多个字符(多个)

news/串包括新闻/

.+串与1个或多个字符(结束开始s)

http://regexr.com/3ffj1