2012-01-25 104 views
1

我想在新西兰惠灵顿刮一些平均房租。惠灵顿每个郊区都有独立的桌子,每个桌子都有自己的页面。我遇到的问题是找到每个页面的地址,所以我可以刮桌子。刮去网站链接 - 看不到href

这是我在http://www.dbh.govt.nz/market-rent?TLA=Wellington&RegionId=9上工作的网站的链接。要查找郊区网页的链接,我使用了Google Chrome中的查看页面源选项。然而,尽管能够点击每个郊区来查看租金表,但这个html似乎并没有提供链接。没有href。

有没有人可以解释这些链接如何没有href?另外,有没有人知道一种方法来找到每个郊区表的链接?最终,我想使用遍历郊区URL的列表并使用python的BeautifulSoup模块来提取租金表。

亲切的问候, 亚历

回答

1

你是对的,他们不是“链接”,并在这个意义上有其中并无HREF场。每个“链接”实际上是<input>类型的元素submit。非常有趣(和非标准)的做事方式!

这里有一些地方,详细了解HTML表单:

您将能够构建完整的HTTP请求通过引用父级来为每个郊区表<form>元素,它将包含url和提交方法(POST或GET),并通过确定相应元素的每个“链接”的请求参数。

+0

谢谢。我查看了链接,这些链接提供了一些如何编写生成表单的HTML的好例子。你提到了POST和GET。我找到了可以写入输入字段的示例,并使用$ _GET来重现输入。由于用户可以访问$ _GET吗?我想知道要读取哪些内容才能以用户身份访问这些字段,而不是网页的设计者。你介意给我一个指针吗? – Alex

+0

看起来你有一些阅读要做:)。我只能指点。不要担心$ _GET,它是服务器端PHP,而不是客户端python。您需要通过解析表单数据并构建一个http请求,然后发送给服务器来模拟浏览器的功能。除非您已经知道,否则您需要了解http和特定的html表单以及python。你可能会发现这些有用的:http://livecode.byu.edu/internet/aboutForms.php http://stackoverflow.com/questions/2081586/web-scraping-with-python http://docs.python.org/ howto/urllib2.html – David

+0

谢谢。是的,我有很多阅读需要做。我不熟悉要搜索的术语“客户端python”。也感谢指向urllib2的指针,看起来正是我需要阅读的内容。 – Alex