2011-03-08 166 views
0

我已经尝试了一堆技术抓取这个URL(见下文),以及由于某种原因标题回来不正确。如果我看的页面与萤火虫的来源,我可以看到正确的标题标签,但是,如果我认为这是不同的页面的源代码。抓取网站使用PHP

使用多个PHP技术,我得到了相同的结果。 Digg能够抓取页面并解析正确的标题。

这里的链接:http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

正确的标题是“如何让你的iPhone(或其他iOS设备)更喜欢Android”的 解析的标题是“Lifehacker的,技巧和下载的做事情”

这是正常的吗?他们如何做到这一点?有没有办法获得正确的标题?

+0

参见:http://stackoverflow.com/questions/3009380/whats-the-shebang-hashbang-in-facebook-and-new-twitter -urls换 – 2011-03-08 04:28:32

回答

1

这是因为当你提出要求使用PHP(无任何JS支持)你得到Lifehacker的的主页 - 这是lifehacker.com。

Lifehacker的交换他们的CMS近日,这样所有的请求到初始页面,然后在hashbang后一切由JS脚本在主页读取找出需要投放的页面。您需要修改程序,以考虑到这一点

编辑 有这些链接

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

http://www.tbray.org/ongoing/When/201x/2011/02/09/Hash-Blecch