0
我正在使用在线工具来抓取我客户的网站并提供其上存在的网页/网址列表。正则表达式从网络爬虫中排除网址
还有就是要排除网页选项,并给出了\?.*page=.*$
正则表达式的例子,我想(从新闻页面本身除了)忽略新闻栏目一切
所以会我去与以下?
\?.*news/.*$
我正在使用在线工具来抓取我客户的网站并提供其上存在的网页/网址列表。正则表达式从网络爬虫中排除网址
还有就是要排除网页选项,并给出了\?.*page=.*$
正则表达式的例子,我想(从新闻页面本身除了)忽略新闻栏目一切
所以会我去与以下?
\?.*news/.*$
如果我理解正确的话,你正在寻找匹配news/foo
或news/foo/bar
,但不news/
正则表达式。
可以使用该正则表达式为:.*news/.+
.*
串与0个或多个字符(多个)
news/
串包括新闻/
.+
串与1个或多个字符(结束开始s)