hpricot

0热度

1回答

我试图解析与所需的部分以下格式的HTML文件解析/迭代HTML文件： <div style="something"> <div class="link"> <a href="http://..." class="headline">Headline</a> </div> <div class="text"> Text summary is

0热度

1回答

解析3角度来说，Hpricot

表列我有一个HTML文档用很简单的表像这样 <table> <tr><th>Country</th><th>Date</th></tr> <tr> <td><b><a href="/calendar/?region=BE">Belgium</a></b></td> <td align="right"><a href="/date/04-20/">20 April</a>

0热度

1回答

如何在使用nokogiri/hpricot和其他gem的网页中grep文件名和扩展名？

我工作的一个应用程序，我必须 1）获取网站 2）的所有链接，然后获得在网页中的每个所有文件和文件扩展名列表/链接。我与它的第一部分做了:) 我得到下面的代码网站的所有链接.. require 'rubygems' require 'spidr' require 'uri' Spidr.site('http://testasp.vulnweb.com/') do |spider|

1热度

3回答

由火虫产生的xpath中的Tbody标记

我想从使用红宝石hpricot库的在线htmls中提取一些数据。我使用firefox extension fire bug来获取选定项目的xpath。生成的xpath表达式中总是存在额外的tbody标记。在某些情况下，我必须从表达式中删除tbody标签才能获得结果，而在其他情况下，我必须保留标签以获取结果。我只是不知道何时保持tbody标记，什么时候不去。

4热度

2回答

未能提取html表格行

我尝试提取上表中列出的所有五行。我正在使用Ruby hpricot库来使用xpath表达式提取表行。在我的例子中，我使用的xpath表达式是/ html/body/center/table/tr。请注意，我已经从表达式中移除了tbody标记，这通常是成功提取的情况。奇怪的是，我得到结果中的前三行，最后两行丢失。我不知道那里发生了什么。编辑：没有什么关于代码的魔力，只要附上请求。 requi

3热度

1回答

在Nokogiri中禁用错误更正

我正在处理一些格式不正确的HTML页面。至少，我认为它们是畸形的，因为当我在Nokogiri中解析它们然后执行to_html时，元素不会再正确显示。但是，当我用Hpricot解析它们时，它们显示正确。我宁可不使用Hpricot，因为它似乎不可能将Hpricot :: Elem实例添加到文档（无需将它们转换为字符串，添加，然后再解析）。我可以禁用Nokogiri的错误更正，以便我可以将HTML更

1热度

2回答

Hpricot：如何提取没有其他html子元素的内部文本

我正在研究一个vim rspec插件（https://github.com/skwp/vim-rspec） - 我解析了一些rspec的html。它看起来像这样： doc = %{ <dl> <dt id="example_group_1">This is the heading text</dt> Some puts output here </dl> } 我能得到

5热度

2回答

使用Ruby与Mechanize登录到网站

我需要从网站上抓取数据，但它首先需要我的登录信息。我一直在使用hpricot成功地刮掉其他网站，但我对使用机械化很陌生，而且我对如何处理它感到困惑。我看到这个例子中经常提到的： require 'rubygems' require 'mechanize' a = Mechanize.new a.get('http://rubyforge.org/') do |page| # C

1热度

2回答

UTF-8中的hpricot无效字节序列

我已经做了一些搜索，但没有一个可以解决这个奇怪的，意想不到的问题。试想一下，在代码的打击： require 'open-uri' require 'hpricot' doc = Hpricot(open("http://www.baidu.com/")) #this web page's encoding is GB2312 我不知道是怎么回事，你可以这样在你的IRB，看看你能得到这个问

0热度

1回答

来自RSS的Hpricot空链接元素

我目前使用Ruby中的Hpricot解析RSS源。除元素外，所有元素均可检索。这是我在做什么：的GUID的作品，而链路发生故障时，当我（“/link").inspect它说，它是一个空元素。虽然如果您查看Feed，则所有项目都会链接具有值的元素。 doc = Hpricot.parse(open("http://www.highways.gov.uk/rssfeed/rss.xml"))