软件抓取/抓取网站的网址

-1

我想抓取/抓取（不知道哪一个是最好的翻译）网站的网址。例如我希望从中获取每一个网址： www.Site.com/posts.html包含www.Site.com/2015-04-01/1软件抓取/抓取网站的网址

，所以我将键入软件www.Site.com并设置深度2和所需的URL文本www.Site.com/2015-04-01/1

所以..软件应该：

1）进入：www.Site.com/posts.html

2）找到匹配的网址：比方说，它发现：

一）www.Site.com/2015-04-01/1/Working-Stuff.html

B）www.Site.com/2015-04-01/1/New-stuff.html

C）www.Site.com/2015-04-01/1/News.html

而现在它进入第一个匹配的url（a）和寻找它包含www.Site.com/2015-04-01/1另一个网址。

因此，例如，它应该是这样的：

Main site: `www.Site.com/posts.html` 


    1)www.Site.com/2015-04-01/1/Working-Stuff.html 
     1a) www.Site.com/2015-04-01/1/Break.htm 
     1b) www.Site.com/2015-04-01/1/How-to.htm 
     1c) www.Site.com/2015-04-01/1/Lets-say.htm 
     1d) www.Site.com/2015-04-01/1/Gamer-life.htm 

    2) www.Site.com/2015-04-01/1/New-stuff.html 
     2a) www.Site.com/2015-04-01/1/My-Story-about.htm 

    3) www.Site.com/2015-04-01/1/News.html 
     3a) www.Site.com/2015-04-01/1/Go-to-hell.htm 
     3b) www.Site.com/2015-04-01/1/Leave.htm

我当然不需要是preffix分组1），2），2A）等。我想要抓住唯一的URL。

我用： A1网站刮板 - 但是当我尝试从......html刮它减少.html一部分，并没有给我完整的URL列表：/

来源

2016-04-20 audiophonic

对不起，坏的问题。请阅读：http://stackoverflow.com/help/how-to-ask和此：http://stackoverflow.com/help/on-topic –

[编辑我以前稍微简单的答案 ]

屏幕抓取是从网页中删除数据的过程。 R包rvest非常擅长屏幕抓取。

网络爬行是遍历网页从一个页面移动到另一个页面的过程。 R包rselenium非常适合模仿用户在页面之间的移动，但只有当您知道网站的结构时才是如此。

您听起来像是想从一个页面到另一个页面进行抓取，从头部页面开始并向前移动。我认为您可以使用rvest和rselenium软件包的组合对代码进行编码。在这两者之间，您可以自定义并采取任何特定的未知路线。

来源

2016-04-20 12:33:50

软件抓取/抓取网站的网址

回答

相关问题