以编程方式下载php生成的网页

我需要下载在线印地文语言词典以供离线使用。词典中的每个词都有一个php生成的页面。这些页面的URL如下： http://pustak.org/home.php?mean=X，其中X代表一个数字。以编程方式下载php生成的网页

因此，字典中的第一个单词可以通过http://pustak.org/home.php?mean=1找到，第二个单词是http://pustak.org/home.php?mean=2等等。

如何以编程方式下载所有这些页面并将它们另存为单独的html文件？ PS：如果你想知道，我这样做是因为我需要一个印地语词典在旅行时指向我的iPod Touch上的离线（因为Touch没有蜂窝数据）。我已经尝试了一大堆印地文字典应用程序，他们都没有接近这个免费的在线字典的质量和定义数量。所以我的计划是下载整个HTML文件，将它们全部存储在支持全文搜索的iOS文件系统应用程序中，并且我有我自己的离线字典...

帮助赞赏！

来源

2012-12-12 Srijan Deshpande

cURL和'file_put_contents'将成为你的朋友。 – moonwave99

平均值的最大值是多少？ – Dale

或者，也许你可以使用外部工具。例如http://www.httrack.com。 – sprain

您可以file_get_contents尝试：

$max = 100000 //total num of words to get 

for($cont=1; $cont<$max; $cont++){ 
    $sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont'); 

    if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){ 
     echo "error with word number".$cont; 
     die(); 
    } 
}

来源

2012-12-12 12:04:14 Alvaro

稍微不同的方式，我会亲自使用HTTrack

从主页：

的HTTrack是一个免费的（GPL，自由报/免费软件）和易于使用的离线浏览工具。

它允许您从Internet上下载万维网站点到本地目录，递归地构建所有目录，从服务器获取HTML，图像和其他文件到您的计算机。 HTTrack 排列原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面，就可以浏览从链接到链接的网站，就像在线查看网站一样。 HTTrack可以也更新现有的镜像站点，并恢复中断下载。 HTTrack是完全可配置的，并且具有集成的帮助系统。

根据该网站，它支持Windows 2000/XP/Vista/Seven和几种Linux。

我假设你可以将下载的文件导入到你提到的这个iOS应用程序中。

来源

2012-12-12 12:04:49 Dale

以编程方式下载php生成的网页

回答

相关问题