2012-12-12 39 views
1

我需要下载在线印地文语言词典以供离线使用。词典中的每个词都有一个php生成的页面。这些页面的URL如下: http://pustak.org/home.php?mean=X,其中X代表一个数字。以编程方式下载php生成的网页

因此,字典中的第一个单词可以通过http://pustak.org/home.php?mean=1找到,第二个单词是http://pustak.org/home.php?mean=2等等。

如何以编程方式下载所有这些页面并将它们另存为单独的html文件? PS:如果你想知道,我这样做是因为我需要一个印地语词典在旅行时指向我的iPod Touch上的离线(因为Touch没有蜂窝数据)。我已经尝试了一大堆印地文字典应用程序,他们都没有接近这个免费的在线字典的质量和定义数量。所以我的计划是下载整个HTML文件,将它们全部存储在支持全文搜索的iOS文件系统应用程序中,并且我有我自己的离线字典...

帮助赞赏!

+0

cURL和'file_put_contents'将成为你的朋友。 – moonwave99

+0

平均值的最大值是多少? – Dale

+0

或者,也许你可以使用外部工具。例如http://www.httrack.com。 – sprain

回答

0

您可以file_get_contents尝试:

$max = 100000 //total num of words to get 

for($cont=1; $cont<$max; $cont++){ 
    $sourceCode = file_get_contents('http://pustak.org/home.php?mean=$cont'); 

    if(!file_put_contents('/path/word'.$cont.'.html',$sourceCode)){ 
     echo "error with word number".$cont; 
     die(); 
    } 
} 
1

稍微不同的方式,我会亲自使用HTTrack

从主页:

的HTTrack是一个免费的(GPL,自由报/免费软件)和易于使用的离线浏览工具 。

它允许您从Internet上下载万维网站点到本地目录 ,递归地构建所有目录,从服务器获取HTML, 图像和其他文件到您的计算机。 HTTrack 排列原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的 页面,就可以浏览从链接到链接的 网站,就像在线查看网站一样。 HTTrack可以 也更新现有的镜像站点,并恢复中断 下载。 HTTrack是完全可配置的,并且具有集成的帮助系统 。

根据该网站,它支持Windows 2000/XP/Vista/Seven和几种Linux。

我假设你可以将下载的文件导入到你提到的这个iOS应用程序中。