hpricot

1热度

1回答

如何解析嵌套的UL /李标签我有以下的HTML结构 <div id='my_categories'> <ul> <li><a href="1">Animals, Birds, & Pets</a></li> <li><a href="2">Ask the Expert</a> <ul> <li><a href='21'>Health Care

0热度

1回答

红宝石角度来说，Hpricot解析XML文档ARIN

我试图解析这个ARIN XML文档。我想获得orgRef标签里面的“名称”属性，并没有做什么，我希望当我角度来说，Hpricot <?xml version='1.0'?><?xml-stylesheet type='text/xsl' href='http://whois.arin.net/xsl/website.xsl' ?><nets xmlns="http://www.arin.net/w

0热度

4回答

Ruby，Scrape页面完全用JavaScript编写

我在玩Ruby + Hpricot并构建一个简单的刮板。我能够与其他网站一起工作，无任何问题。但是，如果一个页面完全用JavaScript编写，那么可以被刮掉吗？但是，google搜索结果页面现在似乎完全是基于JavaScript的，除了一些内部链接。页面可以这样写不被常规工具，如机械化&刮角度来说，Hpricot（我的猜测是，他们不能）他们是工具/使用的宝石，可能可能会尝试渲染页面（如浏览

5热度

1回答

将HTML转换为纯文本并保持结构/格式，使用ruby

我想将html转换为纯文本格式。我不想仅仅去掉标签，我想尽可能地保留尽可能多的格式。插入<br>标签的换行符，检测段落并将其格式化等等。输入非常简单，通常格式良好的html（不是整个文档，只是一堆内容，通常没有锚或图像）。我可以将几个正则表达式组合在一起，让我有80％的存在，但是可能会有一些现有解决方案具有更多的智能。

0热度

1回答

hpricot：从URL和解析元素获取图像

我想获取页面内图像的确切URL，然后下载它。我还没有到达下载点，因为我试图隔离图像的URL。这里是代码： #!/usr/bin/ruby -w require 'rubygems' require 'hpricot' require 'open-uri' raw = Hpricot(open("http://rads.stackoverflow.com/amzn/click/B0000

0热度

1回答

获取DIV属性通过角度来说，Hpricot

我有一个特定的DIV ID叫progress_bar（）和我想要检索的div只是宽度。我对Ruby和Hpricot相当新，所以任何帮助将不胜感激。干杯，斯科特

1热度

1回答

Nokogiri的Hpricot风格“容器”方法？只选择某个node_types

我正在使用带有Ruby的CSS选择器浏览文档，但是我发现Hpricot中一些在Nokogiri中修复的css选择器错误，并且想要切换。我遇到的一个问题是搞清楚如何获取所有“容器”（即不是文本节点）的孩子的数组。 Hpricot使用容器方法提供了该功能。所以在角度来说，Hpricot我可以这样做： children = doc.select('*')[0].containers 但随着引入n

0热度

2回答

OpenURI :: HTTPError（420未使用）：

我有一个Rails 3应用程序。控制器方法之一是解析大量的Twitter搜索结果并将它们存储到数据库中。如果要解析的URL数量很少，所有工作都会正常。但是，一旦网址达到1000以上，我有几秒钟后以下错误（从日志文件中复制）：地址：http://search.twitter.com/search?q=+Chas%20Salon+near:%22Baltimore%22+within:15mi 完成

0热度

2回答

使用方法调用的红宝石块

以下代码完美地工作。 @doc = open(link) { |f| Hpricot(f) } 但我想使用下面的代码，这似乎并不与角度来说，Hpricot块发挥出色（如@doc是一个临时文件的对象，而不是一个角度来说，Hpricot文档对象） @doc = resolve_link(link) { |f| Hpricot(f) } def resolve_link(link) b

0热度

1回答

如何从使用hpricot的超链接中提取网址？

我想从超链接中获取实际的url字符串。我想我的结果被剥离的HTML。所以，如果我的输入字符串中的一个是 <a href="http://target.com/resource.tar.gz">resource</a> 我想获得： http://target.com/resource.tar.gz 我怎样才能做到这一点？