1
刮价值观,我想创建从一个城市的网站上发布这个可怕的HTML抓住两个值的脚本:提取/ HTML从
558.35
和
66.0
这些是水库的详细信息,每周更换一次。
我不确定什么是最好的工具,grep?
感谢您的建议,想法!
<table>
<tbody>
<tr>
<td> Currently:</td>
<td> 558.35</td>
</tr>
<tr>
<td> Percent of capacity:</td>
<td> 66.0%</td>
</tr>
</tbody>
</table>
如果你使用PHP,那么你可以使用DOM文档。 – PHPglue
这是你希望改进的技能吗?然后学习python-scrapy,beautifulSoup等。 Python拥有一个健康的网页抓取生态系统,但是随着html变得更加巴洛克式,你必须保持这一技能的最新才能有意义。如果你只是想抓住这两个值,而且多年来不会做任何其他事情,那么发布“xmllint”或“xmlstarlet”解决方案的奖励。如果真的这么简单,你可能会发现一个awk解决方案,但是一旦数据证明比你在这里指出的更复杂,所有的投注都关闭;-)祝你好运。 – shellter
谢谢,这些都是我将要探索的解决方案! – Dan