我正在尝试构建一个新闻中心应用程序,我的目标是从其他新闻频道中提取新闻文章,对其进行总结,并以无偏见的方式呈现子弹形式。 我已经开始运行算法,我需要的是从其他网站收集数据的代码,如NDTV,CNN等。 请给我一个如何执行此操作的描述。代码,链接,示例和屏幕截图会有很大的帮助。 谢谢! (Y)如何从其他网站为应用程序收集数据?
0
A
回答
1
webscraping是你的方式; 你可以得到你需要你的新闻报道或一切与scrapy,beautifulsoup或selenium它们是Python模块用于获取HTML页面的数据(文本),之后您可以将数据保存到任何你想要如数据库; 最好使用rss页面作为头条新闻,并考虑这些事情。
0
有一个称为QueryList
(http://git.oschina.net/jae/QueryList)一个PHP lib中,它使用phpQuery
内部,并使用一些CSS选择滤波器阵列抓取在某些URL的具体内容。
的文档是在中国(我不认为这是一个英文版本),但它是非常简单的使用方法:
<?php
// include the lib
require_once('QueryList.class.php');
// url to fetch content
$url = 'http://www.example.com/index.html';
// filter rules using css selector grammar
$regArr = array(
'time' => array('td:nth-child(2)', 'text'),
'summary' => array('td:nth-child(3) td:nth-child(3)', 'text'),
'imgSrc' => array('h1 > a > img', 'src')
);
// optional, firstly find `.divbox > table`, then find the things defined by $regArr in each `.divbox > table`
$regRange = '.divbox > table';
// do the query
$result = QueryList::Query($url, $regArr, $regRange);
// the result will be an array like:
/** Array
* (
* [0] => Array
* (
* 'time' => ,
* 'summary' => ,
* 'imgSrc' =>
* )
* [1] => Array
* (
* 'time' => ,
* 'summary' => ,
* 'imgSrc' =>
* )
* ...
*)
*/
echo '<pre>';
print_r($result->jsonArr);
echo '</pre>';
,你还可以定义排除模式和$ regArr一个回调函数,我认为这将符合你的要求。
相关问题
- 1. 从其他网站接收数据
- 2. 从其他网站上托管的表单收集数据
- 3. 如何从Android应用程序接收数据并将其发布到网站
- 4. 如何从其他网站
- 5. 从网站表单接收数据到c#应用程序
- 6. 从其他应用程序登录到asp.net网站,然后接收文件流
- 7. 为ios应用程序收集网络数据
- 8. 如何使用SNMP从其他机器收集数据?
- 9. rails 4:如何从应用程序收集点击流数据
- 10. 如何从向导应用程序收集和存储数据?
- 11. 从主应用程序切换到其他网站
- 12. 从php其他网站提取数据
- 13. 从其他网站提取数据
- 14. 从其他网站获取的数据
- 15. 从其他网站获取数据
- 16. 从其他网站获取数据表
- 17. Azure网站作为其他Azure网站的虚拟应用程序/目录
- 18. 如何使用ajax从其他网站加载数据?
- 19. 如何从其他应用程序
- 20. 如何从其他应用程序
- 21. 如何从其他Android应用程序
- 22. 如何从其他应用程序
- 23. 网站/工具/应用程序收集的网页设计
- 24. 使用cakephp从其他网站获取响应数据
- 25. 如何从网站发送svg数据到android应用程序
- 26. 如何从网站检索数据到iPhone应用程序
- 27. 如何从网站获取数据并将其放到应用程序中?
- 28. 连续将数据从一个应用程序发送到其他应用程序的其他应用程序?
- 29. 从其他网站
- 30. 从其他网站
大多数新闻频道都会有某种RSS Feed,这可能是您最好的选择 –
您可以使用** python **。 –