尽管HTML Scraping从我所能看到的很好的文档中可以看出,并且我理解它的概念和实现,但是从隐藏在认证后面的内容中抓取的最佳方法是什么形式。我指的是从我合法访问的内容中获取内容,所以我正在寻找一种自动提交登录数据的方法。Perl:HTML从认证网站上刮掉
我所能想到的就是设置一个代理,从手动登录中捕获吞吐量,然后设置一个脚本来欺骗吞吐量作为HTML抓取执行的一部分。就语言而言,它可能会在Perl中完成。
有没有人有过这方面的经验,或只是一个普遍的想法?
编辑 这一直是answered before但与.NET。虽然它验证我认为应该如何完成,但有没有人有Perl脚本来做到这一点?