0
我需要帮助解决以下问题:网页抓取搜索结果
我需要验证通过谷歌搜索引擎高速缓存的URL为特定网站。在这种情况下,url将404或者页面不会呈现一些必要的html元素(被认为是坏掉的),我需要记录这些URL,然后301重定向到正确的URL。我知道PHP和一点Python,但我不确定使用什么方法从给定站点的搜索引擎结果中取消所有URL。
我需要帮助解决以下问题:网页抓取搜索结果
我需要验证通过谷歌搜索引擎高速缓存的URL为特定网站。在这种情况下,url将404或者页面不会呈现一些必要的html元素(被认为是坏掉的),我需要记录这些URL,然后301重定向到正确的URL。我知道PHP和一点Python,但我不确定使用什么方法从给定站点的搜索引擎结果中取消所有URL。
http://simplehtmldom.sourceforge.net/ - 一个简单的html解析器。在这个页面有一个例子;不知道这是否仍然适用于Google即时搜索等。