从Python中的Web提取信息的解析器

我的任务是解析HTML页面（以西里尔文）并提取某些单词。这是我必须解析的网页：http://www.toponymic-dictionary.in.ua/。我只得到了页：从Python中的Web提取信息的解析器

import urllib 
from lxml.html import fromstring 
url = 'http://www.toponymic-dictionary.in.ua/' 
content = urllib.urlopen(url).read() 
doc = fromstring(content) 
doc.make_links_absolute(url)

的HTML代码相当复杂，我（使用XPath），所以我不知道该如何继续进入分析。

来源

2013-04-04 Khrystyna Pyurkovska

你*已经*解析了页面。 'doc'现在是一个已解析的文档树。尝试并找到一些'ElementTree'和/或lxml教程，然后回到这里，如果你仍然被困在更具体的东西。 – 2013-04-04 08:33:56

看看这个库：BeautifulSoup

而且其Documentation

它适合最适合您的需求。

干杯！

来源

2013-04-04 09:47:27 vivek

谢谢你的帮助。但是，正如我所知，BeautifulSoup没有使用斯拉夫语言（例如乌克兰语）。 – 2013-06-28 13:28:32

从Python中的Web提取信息的解析器

回答

相关问题