从网址刮去文本和媒体

我正在寻找一些有用的宝石在红宝石刮为目的。基本上，我希望能够从页面上刮去主体。也就是说，只有主体及其媒体（图像）。没有侧栏或页脚或导航栏类型的东西。从网址刮去文本和媒体

我知道抓取需要很多特殊性，比如知道类和ID等。所以我想知道是否有一个工具可以做到这一点？

一个很好的例子就是iOS上的safari中的“Reader View Available”选项。它只显示来自页面的原始内容。有必需的标题和段落。

2015-01-10 psharma

尝试[nokogiri]（http://www.nokogiri.org/）。 – orde

正确的我想知道，我怎么会提取标题，段落和图像（并没有侧栏，页眉和页脚内容）不知道xpath – psharma

而且你还可以使用Css Selector Gadget找到你的班级。这应该有助于找到正确的标题和正文类或ID。

读取器视图不节省带宽

2015-01-10 15:11:13 m0rpheu5

对不起，我认为我不清楚。当我不知道xpaths，类或ids时，我的意思是要抓取网站 – psharma

回答