1
在此之后page scraping tutorial笔者得到所有图片的集合页面上进行如下:使用XmlArrow从页面获取第n个元素?
css :: ArrowXml a => String -> a XmlTree XmlTree
css tag = multi (hasName tag)
images tree = tree >>> css "img" >>> getAttrValue "src"
如何我只得到,比如,页面上的第2图像?在XmlArrow docs中我找不到getElementAt :: Int -> blah
之类的任何功能。
谢谢!
酷文章!我想知道HXT如何处理格式不正确的html? –
它看起来好像处理罚款时提供'withParseHTML'选项... http://hackage.haskell.org/packages/archive/hxt/latest/doc/html/Text-XML-HXT-Arrow-XmlState。 HTML#五:withParseHTML – drozzy