2015-01-10 79 views
0

我正在寻找一些有用的宝石在红宝石刮为目的。基本上,我希望能够从页面上刮去主体。也就是说,只有主体及其媒体(图像)。没有侧栏或页脚或导航栏类型的东西。从网址刮去文本和媒体

我知道抓取需要很多特殊性,比如知道类和ID等。所以我想知道是否有一个工具可以做到这一点?

一个很好的例子就是iOS上的safari中的“Reader View Available”选项。它只显示来自页面的原始内容。有必需的标题和段落。

+1

尝试[nokogiri](http://www.nokogiri.org/)。 – orde

+0

正确的我想知道,我怎么会提取标题,段落和图像(并没有侧栏,页眉和页脚内容)不知道xpath – psharma

回答

0

使用Nokogiri

而且你还可以使用Css Selector Gadget找到你的班级。这应该有助于找到正确的标题和正文类或ID。

读取器视图不节省带宽

+0

对不起,我认为我不清楚。当我不知道xpaths,类或ids时,我的意思是要抓取网站 – psharma