是否有任何可靠的方法来找出指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页之后,我只想要那些指向新闻项目的链接。任何解决方案从新闻网站摘录新闻链接
0
A
回答
0
如果是针对某个特定的网站,您可以随时尝试获取该网站的HTML并使用正则表达式提取到新闻报道的链接。只需在HTML中找到代码可用于识别链接位置的部分即可。
我这样做了几次,以从网站上刮取一些信息。
但也许一个明显的问题,网站上没有RSS提要?
0
你可以做一个简单的WebRequest并下载一个页面并搜索你想要解析的内容的html。
WebRequest req = WebRequest.Create
("http://www.domain.com/news.html");
req.Proxy = null;
using (WebResponse res = req.GetResponse())
using (Stream s = res.GetResponseStream())
using (StreamReader sr = new StreamReader(s))
File.WriteAllText("news.html", sr.ReadToEnd());
//search through html page for news content.
System.Diagnostics.Process.Start("news.html");
相关问题
- 1. 谷歌新闻如何从不同的新闻网站拉新闻链接?
- 2. 新闻ID TYPO3的RealURL新闻链接
- 3. 无法凑新闻网站
- 4. 用Python刮新闻网站
- 5. 新闻网站排名
- 6. 生成一种智能新闻摘录
- 7. 如何制作新闻网站新闻可搜索
- 8. Android - 从网站阅读新闻
- 9. 链接列表像新闻列表或新闻股票
- 10. 从Google新闻获取链接列表
- 11. 重定向从/新闻到/新闻/
- 12. 总新闻在新闻组
- 13. 新闻网站与PHP和链接使用重写规则
- 14. 新闻聚合器网站托管
- 15. 新闻网站的Java矫枉过正?
- 16. 联机新闻网站的RDF数据
- 17. 新闻网站爬行不起作用?
- 18. Google Blogger新闻提要网站
- 19. 新闻网站的SQL表结构
- 20. 如何使新闻列表从新闻节目包作为新闻列表
- 21. 添加新闻页面后,新闻没有出现在Morea Framework网站上
- 22. 添加链接到Facebook新闻订阅
- 23. 简单新闻链接404错误
- 24. 新闻提要API的一般新闻
- 25. 新闻供稿网页
- 26. 从谷歌新闻中提取前10条新闻
- 27. 无法从黑客新闻中刮取新闻标题
- 28. 新闻聚类
- 29. 显示新闻
- 30. TYPO3新闻hidePagination