我有搜索,看了很多关于stackoverflow的例子,但仍然无法得到它的工作。爬网站和获取表格数据
我想抓取一个网站来获取我的体育俱乐部的位置表。
我的问题是,我不能从表中“tr”的内容。在开始我使用REGEX,但后来我读到人们不会推荐它,所以现在我使用XPath,但无法让它工作。
我要抓取的页面是:http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=104
而且我现在所拥有的代码是:
$doc = new DOMDocument();
$doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=104"); // or you could load from a string using loadHTML();
$xpath = new DOMXpath($doc);
$elements = $xpath->query("/table/thead/tbody/tr");
print_r($elements);
我得到的结果是:的DOMNodeList对象([长度] => 0)
我完全错了吗?
您正在寻找'thead'中的'tbody'? – PeeHaa
如果该页面上有多个表格,您可能还希望通过表格ID进行限制。 – halfer