2014-10-09 28 views
1

我正在尝试寻找一种方法来使用python来提取维基百科文章的主要文本。我知道“维基百科”库,但在我的情况下,我已经下载了html页面,而我只需要提取文本。我无法使用该库,因为我需要使用几年前下载的维基百科页面html,所以我无法从头开始下载它。使用Python从Wikipedia html中提取文本

有没有可用于此目的的“现成”解决方案?

+0

作为@CodeNinja说,[BeatifulSoup(http://www.crummy.com/software/BeautifulSoup/)是一个伟大的工具,你可以按照教程[轻松使用Python进行网页扫描](http://blog.miguelgrinberg.com/post/easy-web-scraping-with-python)了解更多信息。 – 2014-10-09 18:14:45

+0

我已经在这里回答了类似的问题:http://stackoverflow.com/questions/23671560/unable-to-scrape-certain-values-of-a-website-using-regex/23672014#23672014 – Vipul 2014-10-09 18:38:24

+0

我知道关于beautifulsoup和我已经在过去使用过它。我寻找的东西并不需要我去考虑哪些标签,也可以删除所有的wiki格式,例如参考([1],...)。 – markusian 2014-10-09 22:11:38

回答

2

尝试BeautifulSoup

from bs4 import BeautifulSoup 
import requests 

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow") 
soup = BeautifulSoup(respond.text) 
l = soup.find_all('p') 
print l[0].text