我试图写一个程序读取任何网站,范围可以从Blogspot的或WordPress的博客/任何其他网站的文章(帖子)的网站内容。至于编写与几乎所有可能用HTML5/XHTML编写的网站都兼容的代码,我想用RSS/Atom提要作为提取内容的基础。如何读取蟒蛇
但是,由于RSS/Atom订阅源通常可能不包含整个网站的文章,因此我想从使用feedparser
的订阅源中收集所有“帖子”链接,然后要从相应的URL中提取文章内容。
我能得到的所有文章的网址在网站(包括总结。即,在饲料中显示文章内容),但我想访问的,我必须使用相应的URL整篇文章的数据。我不知道如何获得文章的“确切”内容(我认为“确切”意味着数据的数据,但是我真的不知道如何获得文章的“确切”内容(我认为“确切”意味着数据与所有的超链接,iframes,幻灯片演出等仍然存在;我不想CSS部分)。
那么,任何人都可以帮助我吗?
你到目前为止尝试过什么?你想要HTML,图像和网站的所有文件,还是只想抓取HTML的一部分?请更具体一些。 – serk
@serk考虑一个博客文章,我想要的信息完全按照它的写法。 (保存CSS)。 – Surya
那为什么不试试'wget'呢? – serk