2016-07-22 50 views
-1

最近我尝试写一个网页蜘蛛,所以我找到一些关于用PHP写的网页蜘蛛的项目。php扩展名“PCNTL”适用于网络蜘蛛吗?

在这些项目中,我发现扩展名“PCNTL”经常使用,但我找不到任何关于它的详细教程或手册。

所以我想知道扩展名“PCNTL”是否真的适合网络蜘蛛?如果不是,有什么选择。

+0

投票结束..这不是一个真正的问题。 – Gogol

+0

问题很好,但问路不是很好。我编辑过。 – Nick

回答

0

“PCNTL”是具有类C过程相关功能的扩展,最值得注意的是fork

我不确定是否有很好的教程,但您可以检查C/C++示例以了解如何使用这些PHP函数。

几年前,我们做了网络爬虫。我们没有使用fork,而是使用了一个shell脚本,它可以并行启动100个爬行器实例。

另一种选择是curl-multi,但再次没有足够的信息和教程。我们尝试了它,但我们没有发现它非常可靠,但我相信你应该检查它。

另一种选择是在Python中执行 - 有几个不同的程序库提供了很多可能性。

+0

感谢您的回复和编辑,我会尝试一下你在anwer中提到的,也许PHP不是蜘蛛的最佳方式,我会继续研究它。 另外,这是我在这个平台上的第一个问题,我的英文很差,我会继续练习。 无论如何非常感谢。 :) – Damon

+0

检查我的答案在这里: http://serverfault.com/questions/326290/most-efficient-time-cost-way-to-scrape-5-million-web-pages/538958 – Nick