2013-01-10 79 views
1

在此之后page scraping tutorial笔者得到所有图片的集合页面上进行如下:使用XmlArrow从页面获取第n个元素?

css :: ArrowXml a => String -> a XmlTree XmlTree 
css tag = multi (hasName tag) 

images tree = tree >>> css "img" >>> getAttrValue "src" 

如何我只得到,比如,页面上的第2图像?在XmlArrow docs中我找不到getElementAt :: Int -> blah之类的任何功能。

谢谢!

+0

酷文章!我想知道HXT如何处理格式不正确的html? –

+1

它看起来好像处理罚款时提供'withParseHTML'选项... http://hackage.haskell.org/packages/archive/hxt/latest/doc/html/Text-XML-HXT-Arrow-XmlState。 HTML#五:withParseHTML – drozzy

回答

2

用于处理元素列表的函数可以在ArrowList类型的类中找到。

在这种特殊情况下,您可以使用>>.运算符使用普通列表函数来转换结果列表。

nthImage n tree = images tree >>. (take 1 . drop n) 
相关问题