1
我正在解析来自http://www.dialettando.com/dizionario/hitlist_regioni_new.lasso?regione=Sardegna的方言单词。解析器返回错误的网址
from urllib import request
from bs4 import BeautifulSoup
from nltk import corpus, word_tokenize, FreqDist, ConditionalFreqDist
url = 'http://www.dialettando.com/dizionario/hitlist_regioni_new.lasso?regione=Sardegna'
dialettando_tokens = []
while url:
html = request.urlopen(url).read().decode('utf8')
page = BeautifulSoup(html, 'html.parser')
a_list = page.find_all('a')
for a in a_list:
try:
a_str = str(a.contents[0])
if a_str[:3] == '<b>' and a.contents[0].string:
dialettando_tokens.append(a.contents[0].string.strip())
except:
pass
if a.string == 'Simonelli Editore Srl':
break
elif a.string == 'PROSSIMI':
link = a['href']
url = 'http://www.dialettando.com/dizionario/' + link
break
else:
url = ''
在每次迭代结束时,我需要解析url到下一页。 HTML:
<a href="hitlist_regioni_new.lasso?saltarec=20&ordina=parola_dialetto®ione=Sardegna" class="titolinoverdone">PROSSIMI</a>
,我需要得到这个链接:
'hitlist_regioni_new.lasso?saltarec=20&ordina=parola_dialetto®ione=Sardegna'
但是解析器回报:
'hitlist_regioni_new.lasso?saltarec=20&ordina=parola_dialettoRione=Sardegna'
此链接无法正常工作,我无法理解怎么了。
看起来®是一个html实体,与®相同,意思是“注册商标”。它似乎用大写“R”代替它 – maxpolk
好的。可以修复它吗?我可以得到正确的网址吗? – GiveItAwayNow