我想抓取/抓取(不知道哪一个是最好的翻译)网站的网址。例如我希望从中获取每一个网址: www.Site.com/posts.html
包含www.Site.com/2015-04-01/1
软件抓取/抓取网站的网址
,所以我将键入软件www.Site.com
并设置深度2
和所需的URL文本www.Site.com/2015-04-01/1
所以..软件应该:
1)进入:www.Site.com/posts.html
2)找到匹配的网址:比方说,它发现:
一)www.Site.com/2015-04-01/1/Working-Stuff.html
B)www.Site.com/2015-04-01/1/New-stuff.html
C)www.Site.com/2015-04-01/1/News.html
而现在它进入第一个匹配的url(a)和寻找它包含www.Site.com/2015-04-01/1
另一个网址。
因此,例如,它应该是这样的:
Main site: `www.Site.com/posts.html`
1)www.Site.com/2015-04-01/1/Working-Stuff.html
1a) www.Site.com/2015-04-01/1/Break.htm
1b) www.Site.com/2015-04-01/1/How-to.htm
1c) www.Site.com/2015-04-01/1/Lets-say.htm
1d) www.Site.com/2015-04-01/1/Gamer-life.htm
2) www.Site.com/2015-04-01/1/New-stuff.html
2a) www.Site.com/2015-04-01/1/My-Story-about.htm
3) www.Site.com/2015-04-01/1/News.html
3a) www.Site.com/2015-04-01/1/Go-to-hell.htm
3b) www.Site.com/2015-04-01/1/Leave.htm
我当然不需要是preffix分组1),2),2A)等。我想要抓住唯一的URL。
我用: A1网站刮板 - 但是当我尝试从......html
刮它减少.html
一部分,并没有给我完整的URL列表:/
对不起,坏的问题。请阅读:http://stackoverflow.com/help/how-to-ask和此:http://stackoverflow.com/help/on-topic –