web-crawler

1热度

4回答

是否有可能编写代码来检测网站是否在搜索内容？

0热度

3回答

我研究了蜘蛛，并认为这是一个有点太复杂，我试图做一个非常简单的应用程序。网页上的某些数据无法在源代码中查看，因为它只是由浏览器显示。如果我想要从WebBrowser控件中显示的特定网页中获取值，是否有任何方法可以从此浏览器的内容中读取值？如果不是，有没有人有任何建议，他们可能会如何处理？

1热度

6回答

如果搜索引擎蜘蛛正在敲击我的网站，我该怎么办？

我运行一个小型的网络服务器，最近它被搜索引擎蜘蛛弄成奶油。冷却它的正确方法是什么？我应该定期发送5xx回复吗？有没有我应该使用的robots.txt设置？或者是其他东西？

5热度

5回答

robots.txt：禁止所有，但选择几个，为什么不？

我一直在想，除了Ask，Google，Microsoft和Yahoo!之外，每一个爬虫都会阻止它。来自我的网站。背后的原因是，我从来没有看到任何其他网络爬虫在那里生成任何流量。我的问题是：有什么理由不？有没有人做过这件事？您是否注意到有负面影响？更新：到现在为止我用了黑名单的方法：如果我不喜欢爬虫，我将它们添加到列表中不允许。我不是黑名单的粉丝，但是因为这是一个永无止境的故事：那里

8热度

5回答

为基于Greasemonkey的搜寻器存储数据的最佳方法？

我想用Greasemonkey抓取一个站点，并想知道是否有比GM_setValue更好的临时存储值的方法。我想要做的是在社交网络中抓取我的联系人，并从他们的个人资料页面中提取Twitter网址。我目前的计划是打开它自己的选项卡中的每个配置文件，使它看起来更像一个正常的浏览人（即CSS，scrits和图像将由浏览器加载）。然后用GM_setValue存储Twitter网址。一旦所有配置文件页面被

3热度

2回答

如何最好地开发网络爬虫

我用来创建一些爬虫来编译信息，当我来到一个网站我需要的信息我开始一个新的爬虫特定的网站，大部分时间和某些时候使用shell脚本PHP 。我做的方法是使用一个简单的for迭代的页面列表，wget不要下载并sed，tr，awk或其他工具来清洁页面，抓住具体信息，我需要。所有的过程都需要一些时间，具体取决于网站和更多的下载所有页面。我常常步入一个AJAX网站，这使得所有事情变得复杂。我想知道是否有更

3热度

4回答

如何强制将页面从搜索引擎索引中删除？

情况：Google已在论坛中为页面编入索引。该线程现在被删除。如何/是否可以让Google和其他搜索引擎删除缓存副本？我怀疑他们会有什么反对，因为链接页面不再存在，并保持索引更新和有效应符合他们的最佳利益。这是可能的还是我必须等待几个月的索引更新？或者页面现在会一直呆在那里？我不是相应网站的所有者，所以我不能更改robots.txt例如。我想强制更新为“第三方”。我还注意到，我前两天创建的资

12热度

10回答

抓取Internet

我想抓取特定的东西。特别是像音乐会，电影，艺术画廊开幕式等等发生的事件。任何人都可能花费时间去做。如何实现爬网程序？听说蛴螬（grub.org - >维基）和Heritix（http://crawler.archive.org/）是别人吗？每个人都有什么意见？ -Jason

0热度

5回答

如何防止从登台env传递到生产的robots.txt？

我曾经在过去发生过一件事，那就是我们的一位IT专家会将robots.txt从生产中意外移动。阻止谷歌和其他人将我们客户的网站编入索引。有没有一种管理这种情况的好方法？在此先感谢。

1热度

2回答

从网页中提取含义全部内容

我正在通过使用我的抓取工具挖掘网页内容来进行一些分析。网页通常包含文章主体周围的混乱（例如广告，不必要的图像和无关链接），从而将用户从实际内容中分散出来。据我了解，提取合理的内容是一个难题，因为没有标准定义新闻报道/博客文章/论坛评论/文章在网页中的实际位置。我能找到一些这样的开源解决方案：https://metacpan.org/pod/HTML::ContentExtractor 但我很好