2
我从HTML文档正文获取文本,如下所示。当我尝试正则表达式扫描术语“图表99”时,我得到一个不匹配的数组,即空数组。但是,在html中,我确实看到“图表99”,尽管检查元素显示它与& nbsp99。我怎样才能摆脱这些HTML字符并像“常规字符串”一样搜索“图表99”?处理Nokogiri/Regex中的特殊字符
url = "https://www.sec.gov/Archives/edgar/data/1467373/000146737316000912/fy16q3plc8-kbody.htm"
doc = Nokogiri::HTML(open(url))
body = doc.css("body").text
body.scan(/exhibit 99/i)
这是有效的。你能解释一下这段代码在做什么吗? – PiperWarrior