2014-06-05 142 views
0

我们有一个要求,我们需要抓取一组特定的网址。关于Google Search Appliance的抓取网址

说例如我们有网站abc.com。我们需要抓取abc.com/test/needed - 在“需要”文件夹下匹配此模式的所有URL。但我们不想抓取abc.com/test/下的其他网址。

我想这将使用RegEx完成。任何人都可以帮助我RegEx?

+1

你的问题有点不清楚,你想要什么?你有一个网址列表,你想匹配一些而不是其他的?哪些你想匹配,哪些不想匹配,举例说明。 –

+0

举例说明我有以下网址1)www.abc.com 2)www.abc.com/xyz 3)www.abc.com/xyz/imp 4)www.abc.com/xyz/waste 5)www。 abc.com/pqr我正在寻找一个正则表达式,它会找到具有模式“/ xyz”的匹配uls,但是如果它的“xyz/imp”它会跳过它,则休息所有组合f或“/ xyz”应该匹配。 – user1085906

+0

所以你想匹配'/ xyz'形式的东西,而不是'/ xyz/imp'形式的东西? –

回答

0

从你的评论说,模式匹配形式的东西去的形式/xyz/imp/xyz但事情:

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2} 
+0

谢谢。这是好的,并且匹配了xyz ..要求是bit diff的url模式。我想匹配www.abc.com/xyz/imp,www.abc.com/,www.abc.com/pqr,但不是www.abc.com/xyz/waste。 ...所以简而言之,如果url有/ xyz /比它应该有xyz/imp或者不匹配它。如果url没有/ xyz /也不匹配那些url。 – user1085906

+0

我真的不明白你在问什么。 [这里是关于正则表达式的教程](http://www.regular-expressions.info/tutorial.html),祝你好运。 –

0

可以添加到GSA的模式可以是:

abc.com/test/needed

包含:abc.com/test/needed

需要考虑的是GSA如何获取此文档。如果它不能抓到文件夹,它将无法找到文件。

0

在GSA中有三种规格允许您制作。

  1. 开始抓取网址 - 这些告诉GSA从哪里开始寻找链接。
  2. 仅追踪和抓取网址格式 - 这些文件告诉GSA需要从“开始抓取网址”开始搜索那些网址,并对其进行索引。
  3. 不抓取网址 - 这些网址格式符合上述2种模式,但不应该被抓取。

从问题本身已经指出的情况来看,我认为您需要做的就是将“开始抓取”网址放入“abc.com/”并放入“关注并抓取“规范为:”abc.com/test/needed/“,假设您在爬网的网站上不需要其他路径/文件夹。

相关问题