我期待从网页网址获取结构化的文章数据。到目前为止,我找到了这两个服务http://www.diffbot.com/和http://embed.ly/extract/demos/nlp。有更好的选择,还是值得自己写代码来做到这一点?从网页提取内容数据
回答
我已经做了很长一段时间的网络抓取/内容提取。
对我来说,最好的方法是编写一个Chrome内容扩展并使用他们的API自动化浏览器。这要求你知道Javascript和HTML。在我最近的一个项目中,我使用了一个带有几个可编辑div的背景页面来配置scraping会话。我在背景页面上有一些按钮来启动这个过程。后台页面加载一个JS脚本,用于监听按钮的点击事件。
当其中一个按钮被点击时,我用chrome.tab.create添加一个新的选项卡用于刮会话。后台js还定义了一些chrome.tabs.onUpdated.addListener,以在标签url包含特定页面/域名时注入内容脚本。
内容脚本然后执行抓取作业,例如用jquery,正则表达式等选择一些元素,最后使用chrome.runtime.sendmessage发送带有对象的消息到背景JS。后台JS脚本使用chrome.runtime.onMessage.addListener监听消息,并基于正在提取的内容进行操作。
该扩展还通过点击例如下一页链接自动化网络数据库。
我添加了一个时间设置来控制每分钟打开的链接数量/链接数量,以便有意识地减慢访问速度,避免过多的抓取。
最后,结果将通过AJAX调用上传到数据库,并通过PHP页面插入到MySQL中。
扩展在下一次运行时,会将数据库中已存在的键/链接与另一个AJAX调用进行比较,并确保仅提取新信息。
我也使用Firefox构建了类似上述的扩展,但对我而言,最好的和最简单的解决方案是Chrome/Chromium内容扩展。
如果你想跳过代码,并正在寻找一个简单的网页抓取/ ETL应用软件,我会建议Foxtrot。使用起来很简单,而且不需要编码。我使用它来从某些政府网站上获取数据,并将其转储到Excel电子表格中用于报告目的。
- 1. 提取网页内容
- 2. 从网页中提取内容
- 3. PHP:如何从网站源页面提取内容或抓取数据集
- 4. 提取数据库内容并将其显示在网页上
- 5. 从javascript网页中提取数据
- 6. beatifulsoup从网页中提取数据python
- 7. 从网页中提取语义数据
- 8. AngularJS数据从网页api提取
- 9. 从网页中提取数据
- 10. 从网页中提取数据
- 11. PHP - 从网页HTML中提取数据
- 12. Android从网页提取数据
- 13. 提取数据网页
- 14. 提取网页数据Python
- 15. 从另一个网站提取内容
- 16. 从html页面提取类内容
- 17. 从html页面提取内容
- 18. 从AJAX/Javascript网页抓取内容
- 19. 从silverlight获取网页内容?
- 20. 从网页中提取内容并使用Java进行比较
- 21. 如何使用jsoup从网页中提取特定内容
- 22. 从网页内容中提取子字符串
- 23. 如何从网页中提取主要内容?
- 24. 从网页提取内容并在TextView中显示
- 25. 从网页中自动提取内容和结构
- 26. Google阅读器如何从网页中提取新闻内容?
- 27. 如何从网页中提取文本内容?
- 28. 如何从网页中提取动态AJAX内容
- 29. 如何从多个网页提取内容?
- 30. 难以从新闻网页中提取主要内容