2016-03-02 29 views
3

美好的一天,StackOverflowers。如何刮<br> - 限制内容在一个网页与rvest?

我有这样一段内容:

A <div> with a <p> with its content separated by <br>

编辑:这是文本形式:

<p><b>Tu dinero/Acciones que acaban con tu quincena</b><br><br>EVITA SOBREENDEUDARTE<br><br>POR SONIA SOTO<br><br>El día de pago llegó, pero tú simplemente no pareces emocionarte como todos los mortales, no sólo de México, sino del mundo. Si esto te pasa, sólo puede existir una razón y es que has entrado en un círculo vicioso en el cual trabajas para pagar deudas, y pides más préstamos para sobrevivir la siguiente quincena, porque esta tampoco te alcanzará.<br><br>Si ya intentaste reducir al máximo tus gastos innecesarios, pero ni así la libras, sería Interesante que pusieras atención en tus hábitos, estamos seguros que ahí puedes encontrar varios porqués a tu situación. Piggo, la plataforma de inversión y ahorro, ha detectado algunos que pueden ser la causa de que el dinero se te vaya de las manos, chécalos y modifica alguna de estas conductas.<br><br>30 POR CIENTO de tus ingresos es lo máximo que puedes comprometerán deudas, recomienda Condusef</p> 

我能够用选择这个标签下面:

html_node(read_html(x), "div#readMoreText > p") 

但是如果我运行html_text()我得到的是整个文本没有线之间的任何分离,就像这样:

[[1]] 
[1] "Tu dinero/Acciones que acaban con tu quincenaEVITASOBREENDEUDARTEPOR SONIA SOTOEl día de pago llegó, pero tú simplemente no pareces emocionarte como todos los mortales, no sólo de México, sino del mundo. Si esto te pasa, sólo puede existir una razón y es que has entrado en un círculo vicioso en el cual trabajas para pagar deudas, y pides más préstamos para sobrevivir la siguiente quincena, porque esta tampoco te alcanzará.Si ya intentaste reducir al máximo tus gastos innecesarios, pero ni así la libras, sería Interesante que pusieras atención en tus hábitos, estamos seguros que ahí puedes encontrar varios porqués a tu situación. Piggo, la plataforma de inversión y ahorro, ha detectado algunos que pueden ser la causa de que el dinero se te vaya de las manos, chécalos y modifica alguna de estas conductas.30 POR CIENTO de tus ingresos es lo máximo que puedes comprometerán deudas, recomienda Condusef" 

是否与rvest的方式来提取此一段文字,并用它的空格,而不是仅仅删除它们,使文字难以辨认更换标签?

谢谢。

J.

+0

很多东西你可以发布'html'代码而不是代码图片吗? – cory

+0

编辑添加代码形式的HTML块。 –

回答

2

要回答我的问题,我设法用下面这样做:

​​

思想html_nodes()才会返回指针,但事实证明,它可以返回GSUB文本或其他功能来处理。

3

这里是一个我认为更直观的“管道”复制:

library(rvest) 
read_html("Somewebpage.html") %>% 
html_nodes(., "div#readMoreText > p") %>% 
gsub(pattern = '<.*?>', replacement = "|".,) 

拆分通过适当的管道节点(|)分隔符将帮助你的时候,你要解