如何从其他网站为应用程序收集数据？

我正在尝试构建一个新闻中心应用程序，我的目标是从其他新闻频道中提取新闻文章，对其进行总结，并以无偏见的方式呈现子弹形式。我已经开始运行算法，我需要的是从其他网站收集数据的代码，如NDTV，CNN等。请给我一个如何执行此操作的描述。代码，链接，示例和屏幕截图会有很大的帮助。谢谢！（Y）如何从其他网站为应用程序收集数据？

来源

2013-11-03 Sunny

大多数新闻频道都会有某种RSS Feed，这可能是您最好的选择 –

您可以使用** python **。 –

webscraping是你的方式; 你可以得到你需要你的新闻报道或一切与scrapy，beautifulsoup或selenium它们是Python模块用于获取HTML页面的数据（文本），之后您可以将数据保存到任何你想要如数据库; 最好使用rss页面作为头条新闻，并考虑这些事情。

来源

2013-11-03 11:18:11

有一个称为QueryList（http://git.oschina.net/jae/QueryList）一个PHP lib中，它使用phpQuery内部，并使用一些CSS选择滤波器阵列抓取在某些URL的具体内容。

的文档是在中国（我不认为这是一个英文版本），但它是非常简单的使用方法：

<?php 
// include the lib 
require_once('QueryList.class.php'); 

// url to fetch content 
$url = 'http://www.example.com/index.html'; 

// filter rules using css selector grammar 
$regArr = array(
    'time' => array('td:nth-child(2)', 'text'), 
    'summary' => array('td:nth-child(3) td:nth-child(3)', 'text'), 
    'imgSrc' => array('h1 > a > img', 'src') 
    ); 

// optional, firstly find `.divbox > table`, then find the things defined by $regArr in each `.divbox > table` 
$regRange = '.divbox > table'; 

// do the query 
$result = QueryList::Query($url, $regArr, $regRange); 

// the result will be an array like: 
/** Array 
* (
* [0] => Array 
* (
*  'time' => , 
*  'summary' => , 
*  'imgSrc' => 
* ) 
* [1] => Array 
* (
*  'time' => , 
*  'summary' => , 
*  'imgSrc' => 
* ) 
* ... 
*) 
*/ 
echo '<pre>'; 
print_r($result->jsonArr); 
echo '</pre>';

，你还可以定义排除模式和$ regArr一个回调函数，我认为这将符合你的要求。

来源

2015-03-16 13:38:17 UniFreak

如何从其他网站为应用程序收集数据？

回答

相关问题