hpricot

    0热度

    1回答

    我试图解析与所需的部分以下格式的HTML文件解析/迭代HTML文件: <div style="something"> <div class="link"> <a href="http://..." class="headline">Headline</a> </div> <div class="text"> Text summary is

    0热度

    1回答

    表列我有一个HTML文档用很简单的表像这样 <table> <tr><th>Country</th><th>Date</th></tr> <tr> <td><b><a href="/calendar/?region=BE">Belgium</a></b></td> <td align="right"><a href="/date/04-20/">20 April</a>

    0热度

    1回答

    我工作的一个应用程序,我必须 1)获取网站 2)的所有链接,然后获得在网页中的每个 所有文件和文件扩展名列表/链接。 我与它的第一部分做了:) 我得到下面的代码网站的所有链接.. require 'rubygems' require 'spidr' require 'uri' Spidr.site('http://testasp.vulnweb.com/') do |spider|

    1热度

    3回答

    我想从使用红宝石hpricot库的在线htmls中提取一些数据。我使用firefox extension fire bug来获取选定项目的xpath。 生成的xpath表达式中总是存在额外的tbody标记。在某些情况下,我必须从表达式中删除tbody标签才能获得结果,而在其他情况下,我必须保留标签以获取结果。 我只是不知道何时保持tbody标记,什么时候不去。

    4热度

    2回答

    我尝试提取上表中列出的所有五行。 我正在使用Ruby hpricot库来使用xpath表达式提取表行。 在我的例子中,我使用的xpath表达式是/ html/body/center/table/tr。请注意,我已经从表达式中移除了tbody标记,这通常是成功提取的情况。 奇怪的是,我得到结果中的前三行,最后两行丢失。我不知道那里发生了什么。 编辑:没有什么关于代码的魔力,只要附上请求。 requi

    3热度

    1回答

    我正在处理一些格式不正确的HTML页面。至少,我认为它们是畸形的,因为当我在Nokogiri中解析它们然后执行to_html时,元素不会再正确显示。但是,当我用Hpricot解析它们时,它们显示正确。 我宁可不使用Hpricot,因为它似乎不可能将Hpricot :: Elem实例添加到文档(无需将它们转换为字符串,添加,然后再解析)。 我可以禁用Nokogiri的错误更正,以便我可以将HTML更

    1热度

    2回答

    我正在研究一个vim rspec插件(https://github.com/skwp/vim-rspec) - 我解析了一些rspec的html。它看起来像这样: doc = %{ <dl> <dt id="example_group_1">This is the heading text</dt> Some puts output here </dl> } 我能得到

    5热度

    2回答

    我需要从网站上抓取数据,但它首先需要我的登录信息。我一直在使用hpricot成功地刮掉其他网站,但我对使用机械化很陌生,而且我对如何处理它感到困惑。 我看到这个例子中经常提到的: require 'rubygems' require 'mechanize' a = Mechanize.new a.get('http://rubyforge.org/') do |page| # C

    1热度

    2回答

    我已经做了一些搜索,但没有一个可以解决这个奇怪的,意想不到的问题。 试想一下,在代码的打击: require 'open-uri' require 'hpricot' doc = Hpricot(open("http://www.baidu.com/")) #this web page's encoding is GB2312 我不知道是怎么回事,你可以这样在你的IRB,看看你能得到这个问

    0热度

    1回答

    我目前使用Ruby中的Hpricot解析RSS源。 除元素外,所有元素均可检索。 这是我在做什么: 的GUID的作品,而链路发生故障时,当我(“/link").inspect它说,它是一个空元素。虽然如果您查看Feed,则所有项目都会链接具有值的元素。 doc = Hpricot.parse(open("http://www.highways.gov.uk/rssfeed/rss.xml"))