我正在寻找一些有用的宝石在红宝石刮为目的。基本上,我希望能够从页面上刮去主体。也就是说,只有主体及其媒体(图像)。没有侧栏或页脚或导航栏类型的东西。从网址刮去文本和媒体
我知道抓取需要很多特殊性,比如知道类和ID等。所以我想知道是否有一个工具可以做到这一点?
一个很好的例子就是iOS上的safari中的“Reader View Available”选项。它只显示来自页面的原始内容。有必需的标题和段落。
我正在寻找一些有用的宝石在红宝石刮为目的。基本上,我希望能够从页面上刮去主体。也就是说,只有主体及其媒体(图像)。没有侧栏或页脚或导航栏类型的东西。从网址刮去文本和媒体
我知道抓取需要很多特殊性,比如知道类和ID等。所以我想知道是否有一个工具可以做到这一点?
一个很好的例子就是iOS上的safari中的“Reader View Available”选项。它只显示来自页面的原始内容。有必需的标题和段落。
对不起,我认为我不清楚。当我不知道xpaths,类或ids时,我的意思是要抓取网站 – psharma
尝试[nokogiri](http://www.nokogiri.org/)。 – orde
正确的我想知道,我怎么会提取标题,段落和图像(并没有侧栏,页眉和页脚内容)不知道xpath – psharma