2017-10-16 66 views
0

这可能不是这个问题的最佳标题。在客户端的网页搜刮

因此,我有一个nodejs应用程序在我的服务器上运行,它目前使用python脚本进行网络抓取,但我正在考虑将此移动到客户端,因为个人客户端会看到不同版本(可能是唯一的)现场。

我是一个理想的世界,我希望使用javascript从页面获得html响应(通过右键单击并选择查看源代码,我可以在Chrome中看到)然后在JavaScript中处理。

但是,从我在网上阅读这似乎并不可能。我知道提供响应的网站(如anyorigin.com)可以被抓取。但是,这些并不适合我,因为我需要能够刮取用户看到的内容,因为每个用户都可能会在我想要刮取的网站上看到不同的内容。我目前使用的python脚本会执行此操作,但它需要用户安装python才能执行它并且不能保证。

道歉的文本块。

有没有解决这个问题的方法?

+0

是添加浏览器插件的一个选项吗? – theGleep

+0

这是我正在研究的东西,因为我导致相信插件能够绕过javascript安全限制。 – user7856951

回答

0

经过一些研究和收到的建议后,我使用Chrome开发人员网站上的简单指南创建了Chrome扩展,并使用CORSrequest获取我需要的内容。

如果有人发现这个问题,并希望提供帮助,我很乐意提供进一步的详细信息/帮助:)

0

我最近试图做的事情非常相似,不幸的是,据我所知在客户端没有办法做到这一点。你可以做一些技巧,并将你所需要的数据“发布”回你的服务器上,但我不认为这将是非常有效或直接的。

虽然如果你确实找到了一些东西,请分享。

+0

我创建了一个Chrome扩展,它解决了我的问题 – user7856951