0

我正在尝试构建一个新闻中心应用程序,我的目标是从其他新闻频道中提取新闻文章,对其进行总结,并以无偏见的方式呈现子弹形式。 我已经开始运行算法,我需要的是从其他网站收集数据的代码,如NDTV,CNN等。 请给我一个如何执行此操作的描述。代码,链接,示例和屏幕截图会有很大的帮助。 谢谢! (Y)如何从其他网站为应用程序收集数据?

+0

大多数新闻频道都会有某种RSS Feed,这可能是您最好的选择 –

+0

您可以使用** python **。 –

回答

1

webscraping是你的方式; 你可以得到你需要你的新闻报道或一切与scrapybeautifulsoupselenium它们是Python模块用于获取HTML页面的数据(文本),之后您可以将数据保存到任何你想要如数据库; 最好使用rss页面作为头条新闻,并考虑这些事情。

0

有一个称为QueryListhttp://git.oschina.net/jae/QueryList)一个PHP lib中,它使用phpQuery内部,并使用一些CSS选择滤波器阵列抓取在某些URL的具体内容。

的文档是在中国(我不认为这是一个英文版本),但它是非常简单的使用方法:

<?php 
// include the lib 
require_once('QueryList.class.php'); 

// url to fetch content 
$url = 'http://www.example.com/index.html'; 

// filter rules using css selector grammar 
$regArr = array(
    'time' => array('td:nth-child(2)', 'text'), 
    'summary' => array('td:nth-child(3) td:nth-child(3)', 'text'), 
    'imgSrc' => array('h1 > a > img', 'src') 
    ); 

// optional, firstly find `.divbox > table`, then find the things defined by $regArr in each `.divbox > table` 
$regRange = '.divbox > table'; 

// do the query 
$result = QueryList::Query($url, $regArr, $regRange); 

// the result will be an array like: 
/** Array 
* (
* [0] => Array 
* (
*  'time' => , 
*  'summary' => , 
*  'imgSrc' => 
* ) 
* [1] => Array 
* (
*  'time' => , 
*  'summary' => , 
*  'imgSrc' => 
* ) 
* ... 
*) 
*/ 
echo '<pre>'; 
print_r($result->jsonArr); 
echo '</pre>'; 

,你还可以定义排除模式和$ regArr一个回调函数,我认为这将符合你的要求。