2013-04-04 33 views
1

我的任务是解析HTML页面(以西里尔文)并提取某些单词。这是我必须解析的网页:http://www.toponymic-dictionary.in.ua/。我只得到了页:从Python中的Web提取信息的解析器

import urllib 
from lxml.html import fromstring 
url = 'http://www.toponymic-dictionary.in.ua/' 
content = urllib.urlopen(url).read() 
doc = fromstring(content) 
doc.make_links_absolute(url) 

的HTML代码相当复杂,我(使用XPath),所以我不知道该如何继续进入分析。

+2

你*已经*解析了页面。 'doc'现在是一个已解析的文档树。尝试并找到一些'ElementTree'和/或lxml教程,然后回到这里,如果你仍然被困在更具体的东西。 – 2013-04-04 08:33:56

回答

1

看看这个库:BeautifulSoup

而且其Documentation

它适合最适合您的需求。

干杯!

+0

谢谢你的帮助。但是,正如我所知,BeautifulSoup没有使用斯拉夫语言(例如乌克兰语)。 – 2013-06-28 13:28:32