关于Google Search Appliance的抓取网址

我们有一个要求，我们需要抓取一组特定的网址。关于Google Search Appliance的抓取网址

说例如我们有网站abc.com。我们需要抓取abc.com/test/needed - 在“需要”文件夹下匹配此模式的所有URL。但我们不想抓取abc.com/test/下的其他网址。

我想这将使用RegEx完成。任何人都可以帮助我RegEx？

2014-06-05 user1085906

你的问题有点不清楚，你想要什么？你有一个网址列表，你想匹配一些而不是其他的？哪些你想匹配，哪些不想匹配，举例说明。 –

举例说明我有以下网址1）www.abc.com 2）www.abc.com/xyz 3）www.abc.com/xyz/imp 4）www.abc.com/xyz/waste 5）www。 abc.com/pqr我正在寻找一个正则表达式，它会找到具有模式“/ xyz”的匹配uls，但是如果它的“xyz/imp”它会跳过它，则休息所有组合f或“/ xyz”应该匹配。 – user1085906

所以你想匹配'/ xyz'形式的东西，而不是'/ xyz/imp'形式的东西？ –

从你的评论说，模式匹配形式的东西去的形式/xyz/imp的/xyz但事情：

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2}

来源

2014-06-05 15:15:45

谢谢。这是好的，并且匹配了xyz ..要求是bit diff的url模式。我想匹配www.abc.com/xyz/imp，www.abc.com/，www.abc.com/pqr，但不是www.abc.com/xyz/waste。 ...所以简而言之，如果url有/ xyz /比它应该有xyz/imp或者不匹配它。如果url没有/ xyz /也不匹配那些url。 – user1085906

我真的不明白你在问什么。 [这里是关于正则表达式的教程]（http://www.regular-expressions.info/tutorial.html），祝你好运。 –

可以添加到GSA的模式可以是：

abc.com/test/needed

或

包含：abc.com/test/needed

需要考虑的是GSA如何获取此文档。如果它不能抓到文件夹，它将无法找到文件。

来源

2014-06-17 22:38:09

在GSA中有三种规格允许您制作。

开始抓取网址 - 这些告诉GSA从哪里开始寻找链接。
仅追踪和抓取网址格式 - 这些文件告诉GSA需要从“开始抓取网址”开始搜索那些网址，并对其进行索引。
不抓取网址 - 这些网址格式符合上述2种模式，但不应该被抓取。

从问题本身已经指出的情况来看，我认为您需要做的就是将“开始抓取”网址放入“abc.com/”并放入“关注并抓取“规范为：”abc.com/test/needed/“，假设您在爬网的网站上不需要其他路径/文件夹。

来源

2015-06-09 04:01:09

关于Google Search Appliance的抓取网址

回答

相关问题