hpricot

    1热度

    1回答

    如何解析嵌套的UL /李标签我有以下的HTML结构 <div id='my_categories'> <ul> <li><a href="1">Animals, Birds, & Pets</a></li> <li><a href="2">Ask the Expert</a> <ul> <li><a href='21'>Health Care

    0热度

    1回答

    我试图解析这个ARIN XML文档。我想获得orgRef标签里面的“名称”属性,并没有做什么,我希望当我角度来说,Hpricot <?xml version='1.0'?><?xml-stylesheet type='text/xsl' href='http://whois.arin.net/xsl/website.xsl' ?><nets xmlns="http://www.arin.net/w

    0热度

    4回答

    我在玩Ruby + Hpricot并构建一个简单的刮板。我能够与其他网站一起工作,无任何问题。但是,如果一个页面完全用JavaScript编写,那么可以被刮掉吗? 但是,google搜索结果页面现在似乎完全是基于JavaScript的,除了一些内部链接。 页面可以这样写不被常规工具,如机械化&刮角度来说,Hpricot(我的猜测是,他们不能) 他们是工具/使用的宝石,可能可能会尝试渲染页面(如浏览

    5热度

    1回答

    我想将html转换为纯文本格式。我不想仅仅去掉标签,我想尽可能地保留尽可能多的格式。插入<br>标签的换行符,检测段落并将其格式化等等。 输入非常简单,通常格式良好的html(不是整个文档,只是一堆内容,通常没有锚或图像) 。 我可以将几个正则表达式组合在一起,让我有80%的存在,但是可能会有一些现有解决方案具有更多的智能。

    0热度

    1回答

    我想获取页面内图像的确切URL,然后下载它。我还没有到达下载点,因为我试图隔离图像的URL。这里是代码: #!/usr/bin/ruby -w require 'rubygems' require 'hpricot' require 'open-uri' raw = Hpricot(open("http://rads.stackoverflow.com/amzn/click/B0000

    0热度

    1回答

    我有一个特定的DIV ID叫progress_bar() 和我想要检索的div只是宽度。我对Ruby和Hpricot相当新,所以任何帮助将不胜感激。 干杯, 斯科特

    1热度

    1回答

    我正在使用带有Ruby的CSS选择器浏览文档,但是我发现Hpricot中一些在Nokogiri中修复的css选择器错误,并且想要切换。 我遇到的一个问题是搞清楚如何获取所有“容器”(即不是文本节点)的孩子的数组。 Hpricot使用容器方法提供了该功能。 所以在角度来说,Hpricot我可以这样做: children = doc.select('*')[0].containers 但随着引入n

    0热度

    2回答

    我有一个Rails 3应用程序。控制器方法之一是解析大量的Twitter搜索结果并将它们存储到数据库中。如果要解析的URL数量很少,所有工作都会正常。但是,一旦网址达到1000以上,我有几秒钟后以下错误(从日志文件中复制): 地址:http://search.twitter.com/search?q=+Chas%20Salon+near:%22Baltimore%22+within:15mi 完成

    0热度

    2回答

    以下代码完美地工作。 @doc = open(link) { |f| Hpricot(f) } 但我想使用下面的代码,这似乎并不与角度来说,Hpricot块发挥出色(如@doc是一个临时文件的对象,而不是一个角度来说,Hpricot文档对象) @doc = resolve_link(link) { |f| Hpricot(f) } def resolve_link(link) b

    0热度

    1回答

    我想从超链接中获取实际的url字符串。我想我的结果被剥离的HTML。 所以,如果我的输入字符串中的一个是 <a href="http://target.com/resource.tar.gz">resource</a> 我想获得: http://target.com/resource.tar.gz 我怎样才能做到这一点?