2012-11-03 29 views
4

我不确定我是否正确地标记了这个问题,但我知道很多新闻应用程序,如Pulse,Google Currents等拉入新闻文章的缩略图。我的问题是,我假设他们正在从新闻网站本身提取内容,无论是屏幕抓取还是消费某种类型的Feed。他们如何知道从网站上拉入哪张图片?拉动与新闻文章相关的缩略图

我用“android”标记标记了这一点,因为我已经构建了一个新闻阅读器应用程序,并希望将其放入缩略图图像中。谢谢。

回答

1

我建立了自己前一段时间使用这种方法这样的事情:

  1. 过程的文章有可读性框架(用于Java,谷歌发现jReadabilitySnacktoryJava-readability - 有可能更在那里,其中一个应也可以在Android上运行)。
  2. 在处理过的文章中,使用一些DOM框架抓取第一个图像以导航到第一个img标签。由于文章是“干净的”,这通常是可用的。

我建议尽可能在服务器上处理文章,而不是在电话上处理。

1

this article中,讨论了不同的技术。

缩略图提取的一个很好的例子是在reddit上执行的。有关reddit标识和作物缩略图的详细信息,请参阅herehere