web-crawler

    1热度

    4回答

    是否有可能编写代码来检测网站是否在搜索内容?

    0热度

    3回答

    我研究了蜘蛛,并认为这是一个有点太复杂,我试图做一个非常简单的应用程序。网页上的某些数据无法在源代码中查看,因为它只是由浏览器显示。 如果我想要从WebBrowser控件中显示的特定网页中获取值,是否有任何方法可以从此浏览器的内容中读取值? 如果不是,有没有人有任何建议,他们可能会如何处理?

    1热度

    6回答

    我运行一个小型的网络服务器,最近它被搜索引擎蜘蛛弄成奶油。冷却它的正确方法是什么?我应该定期发送5xx回复吗?有没有我应该使用的robots.txt设置?或者是其他东西?

    5热度

    5回答

    我一直在想,除了Ask,Google,Microsoft和Yahoo!之外,每一个爬虫都会阻止它。来自我的网站。 背后的原因是,我从来没有看到任何其他网络爬虫在那里生成任何流量。 我的问题是: 有什么理由不? 有没有人做过这件事? 您是否注意到有负面影响? 更新: 到现在为止我用了黑名单的方法:如果我不喜欢爬虫,我将它们添加到列表中不允许。 我不是黑名单的粉丝,但是因为这是一个永无止境的故事:那里

    8热度

    5回答

    我想用Greasemonkey抓取一个站点,并想知道是否有比GM_setValue更好的临时存储值的方法。 我想要做的是在社交网络中抓取我的联系人,并从他们的个人资料页面中提取Twitter网址。 我目前的计划是打开它自己的选项卡中的每个配置文件,使它看起来更像一个正常的浏览人(即CSS,scrits和图像将由浏览器加载)。然后用GM_setValue存储Twitter网址。一旦所有配置文件页面被

    3热度

    2回答

    我用来创建一些爬虫来编译信息,当我来到一个网站我需要的信息我开始一个新的爬虫特定的网站,大部分时间和某些时候使用shell脚本PHP 。 我做的方法是使用一个简单的for迭代的页面列表,wget不要下载并sed,tr,awk或其他工具来清洁页面,抓住具体信息,我需要。 所有的过程都需要一些时间,具体取决于网站和更多的下载所有页面。我常常步入一个AJAX网站,这使得所有事情变得复杂。我想知道是否有更

    3热度

    4回答

    情况:Google已在论坛中为页面编入索引。该线程现在被删除。如何/是否可以让Google和其他搜索引擎删除缓存副本?我怀疑他们会有什么反对,因为链接页面不再存在,并保持索引更新和有效应符合他们的最佳利益。 这是可能的还是我必须等待几个月的索引更新?或者页面现在会一直呆在那里? 我不是相应网站的所有者,所以我不能更改robots.txt例如。我想强制更新为“第三方”。 我还注意到,我前两天创建的资

    12热度

    10回答

    我想抓取特定的东西。特别是像音乐会,电影,艺术画廊开幕式等等发生的事件。任何人都可能花费时间去做。 如何实现爬网程序? 听说蛴螬(grub.org - >维基)和Heritix(http://crawler.archive.org/) 是别人吗? 每个人都有什么意见? -Jason

    0热度

    5回答

    我曾经在过去发生过一件事,那就是我们的一位IT专家会将robots.txt从生产中意外移动。阻止谷歌和其他人将我们客户的网站编入索引。有没有一种管理这种情况的好方法? 在此先感谢。

    1热度

    2回答

    我正在通过使用我的抓取工具挖掘网页内容来进行一些分析。网页通常包含文章主体周围的混乱(例如广告,不必要的图像和无关链接),从而将用户从实际内容中分散出来。 据我了解,提取合理的内容是一个难题,因为没有标准定义新闻报道/博客文章/论坛评论/文章在网页中的实际位置。 我能找到一些这样的开源解决方案:https://metacpan.org/pod/HTML::ContentExtractor 但我很好