刮去网站链接 - 看不到href

我想在新西兰惠灵顿刮一些平均房租。惠灵顿每个郊区都有独立的桌子，每个桌子都有自己的页面。我遇到的问题是找到每个页面的地址，所以我可以刮桌子。刮去网站链接 - 看不到href

这是我在http://www.dbh.govt.nz/market-rent?TLA=Wellington&RegionId=9上工作的网站的链接。要查找郊区网页的链接，我使用了Google Chrome中的查看页面源选项。然而，尽管能够点击每个郊区来查看租金表，但这个html似乎并没有提供链接。没有href。

有没有人可以解释这些链接如何没有href？另外，有没有人知道一种方法来找到每个郊区表的链接？最终，我想使用遍历郊区URL的列表并使用python的BeautifulSoup模块来提取租金表。

亲切的问候，亚历

来源

2012-01-25 Alex

你是对的，他们不是“链接”，并在这个意义上有其中并无HREF场。每个“链接”实际上是<input>类型的元素submit。非常有趣（和非标准）的做事方式！

这里有一些地方，详细了解HTML表单：

您将能够构建完整的HTTP请求通过引用父级来为每个郊区表<form>元素，它将包含url和提交方法（POST或GET），并通过确定相应元素的每个“链接”的请求参数。

来源

2012-01-25 19:52:50 David

谢谢。我查看了链接，这些链接提供了一些如何编写生成表单的HTML的好例子。你提到了POST和GET。我找到了可以写入输入字段的示例，并使用$ _GET来重现输入。由于用户可以访问$ _GET吗？我想知道要读取哪些内容才能以用户身份访问这些字段，而不是网页的设计者。你介意给我一个指针吗？ – Alex

看起来你有一些阅读要做:)。我只能指点。不要担心$ _GET，它是服务器端PHP，而不是客户端python。您需要通过解析表单数据并构建一个http请求，然后发送给服务器来模拟浏览器的功能。除非您已经知道，否则您需要了解http和特定的html表单以及python。你可能会发现这些有用的：http://livecode.byu.edu/internet/aboutForms.php http://stackoverflow.com/questions/2081586/web-scraping-with-python http://docs.python.org/ howto/urllib2.html – David

谢谢。是的，我有很多阅读需要做。我不熟悉要搜索的术语“客户端python”。也感谢指向urllib2的指针，看起来正是我需要阅读的内容。 – Alex

刮去网站链接 - 看不到href

回答

相关问题