2016-04-20 252 views
-1

我想抓取/抓取(不知道哪一个是最好的翻译)网站的网址。例如我希望从中获取每一个网址: www.Site.com/posts.html包含www.Site.com/2015-04-01/1软件抓取/抓取网站的网址

,所以我将键入软件www.Site.com并设置深度2和所需的URL文本www.Site.com/2015-04-01/1

所以..软件应该:

1)进入:www.Site.com/posts.html

2)找到匹配的网址:比方说,它发现:

一)www.Site.com/2015-04-01/1/Working-Stuff.html

B)www.Site.com/2015-04-01/1/New-stuff.html

C)www.Site.com/2015-04-01/1/News.html

而现在它进入第一个匹配的url(a)和寻找它包含www.Site.com/2015-04-01/1另一个网址。

因此,例如,它应该是这样的:

Main site: `www.Site.com/posts.html` 


    1)www.Site.com/2015-04-01/1/Working-Stuff.html 
     1a) www.Site.com/2015-04-01/1/Break.htm 
     1b) www.Site.com/2015-04-01/1/How-to.htm 
     1c) www.Site.com/2015-04-01/1/Lets-say.htm 
     1d) www.Site.com/2015-04-01/1/Gamer-life.htm 

    2) www.Site.com/2015-04-01/1/New-stuff.html 
     2a) www.Site.com/2015-04-01/1/My-Story-about.htm 

    3) www.Site.com/2015-04-01/1/News.html 
     3a) www.Site.com/2015-04-01/1/Go-to-hell.htm 
     3b) www.Site.com/2015-04-01/1/Leave.htm 

我当然不需要是preffix分组1),2),2A)等。我想要抓住唯一的URL。


我用: A1网站刮板 - 但是当我尝试从......html刮它减少.html一部分,并没有给我完整的URL列表:/

+0

对不起,坏的问题。请阅读:http://stackoverflow.com/help/how-to-ask和此:http://stackoverflow.com/help/on-topic –

回答

0

[编辑我以前稍微简单的答案 ]

屏幕抓取是从网页中删除数据的过程。 R包rvest非常擅长屏幕抓取。

网络爬行是遍历网页从一个页面移动到另一个页面的过程。 R包rselenium非常适合模仿用户在页面之间的移动,但只有当您知道网站的结构时才是如此。

您听起来像是想从一个页面到另一个页面进行抓取,从头部页面开始并向前移动。我认为您可以使用rvestrselenium软件包的组合对代码进行编码。在这两者之间,您可以自定义并采取任何特定的未知路线。