使用Python从Wikipedia html中提取文本

我正在尝试寻找一种方法来使用python来提取维基百科文章的主要文本。我知道“维基百科”库，但在我的情况下，我已经下载了html页面，而我只需要提取文本。我无法使用该库，因为我需要使用几年前下载的维基百科页面html，所以我无法从头开始下载它。使用Python从Wikipedia html中提取文本

有没有可用于此目的的“现成”解决方案？

来源

2014-10-09 markusian

作为@CodeNinja说，[BeatifulSoup（http://www.crummy.com/software/BeautifulSoup/）是一个伟大的工具，你可以按照教程[轻松使用Python进行网页扫描]（http://blog.miguelgrinberg.com/post/easy-web-scraping-with-python）了解更多信息。 – 2014-10-09 18:14:45

我已经在这里回答了类似的问题：http://stackoverflow.com/questions/23671560/unable-to-scrape-certain-values-of-a-website-using-regex/23672014#23672014 – Vipul 2014-10-09 18:38:24

我知道关于beautifulsoup和我已经在过去使用过它。我寻找的东西并不需要我去考虑哪些标签，也可以删除所有的wiki格式，例如参考（[1]，...）。 – markusian 2014-10-09 22:11:38

尝试BeautifulSoup：

from bs4 import BeautifulSoup 
import requests 

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow") 
soup = BeautifulSoup(respond.text) 
l = soup.find_all('p') 
print l[0].text

来源

2014-10-09 17:59:08 CodeNinja

使用Python从Wikipedia html中提取文本

回答

相关问题