我有一个问题,我无法从包含来自PHP表单内容的网站抓取内容。我假设这是问题,因为所有其他网页都没有问题被抓取。我使用Nutch 1.11和Apache Solr 5.4.1将抓取的文档编入索引。唯一获取索引的文本是菜单链接中的样板文本等。整个文本主体永远不会被解析。
我目前正在这一只除了那些允许在URL中执行一个PHP查询,以便字符,如默认CONFIGS“?=”接受比这所有的默认设置等。 如果有人能解释为什么这种情况我真的很感激它,我似乎无法将它作为网上任何地方的问题。
下面是一个示例网站,我无法获取要解压缩和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21
我已经通过日志,它说它解析了网址。它设法提取菜单文本,但没有任何主要内容。正如我所说,域中的所有其他页面都可以在没有问题的情况下进行提取。Nutch不抓取页面内容
0
A
回答
0
一般来说查询网址是默认忽略,这是因为他们可以有抓取的网站上了沉重的打击(如查询URL通常动态地从数据存储/ DB产生的),为了解决这个问题,请检查文件,您将白名单的正则表达式放入其中,并在那里明确说明接受的url模式 - 这将需要进行更改以允许查询URL(带有?的URL)。
文件感兴趣的是所谓的:正则表达式,URLFILTER.TXT
,将有:
# regex-urlfilter.txt +^http://www.example.com/browse -[?]
内容
对此事有趣的博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隶属于
相关问题
- 1. 如何在nutch中获取抓取的页面内容和相应的URL?
- 2. 使用Nutch如何抓取uisng ajax网页的动态内容?
- 3. 如何从nutch访问内容分类中的抓取内容
- 4. 从html页面抓取内容
- 5. 如何抓取页面,但无法在nutch 2.1中抓取视频/图像内容?
- 6. apache nutch不抓取网站
- 7. Nutch抓取不起作用
- 8. 使用nutch抓取子页面时获取父标题
- 9. 获取页面内容的格式,因为它是在nutch
- 10. 在Nutch上抓取已发布的内容
- 11. Nutch的抓取工具无法检索新闻文章内容
- 12. Nutch 2从抓取中排除内容类型图像
- 13. 抓取网页,但需要javascript查看页面内容
- 14. 使用nutch抓取页面的后处理
- 15. 从nutch重点抓取
- 16. Nutch的抓取命令
- 17. 抓取:内容后
- 18. 从AJAX/Javascript网页抓取内容
- 19. node-simplecrawler:ajaxed内容网页抓取问题
- 20. 网页抓取动态内容与Python
- 21. API Json输出 - 抓取网页内容
- 22. 语言的网页抓取JavaScript内容
- 23. 抓取GWT中网页的内容
- 24. 网页抓取动态内容
- 25. Facebook页面抓取
- 26. 抓取html页面
- 27. HTML页面抓取
- 28. 抓取页面块
- 29. file_get_contents抓取远程页面,内容未更新
- 30. 正则表达式从另一个页面抓取内容