我正在为python编写xbmc的插件。我有一个字符串列表,格式为:
<a href="/www.link.to/something">name of link</a>
如何从python的这个(部分)html字符串获取链接和标题
通过使用漂亮的石头汤(代码的相关部分):
soup = BeautifulStoneSoup(link, convertEntities=BeautifulStoneSoup.XML_ENTITIES)
programs = soup('ul')
i = 0
for prog in programs:
i = i+1
if i==(5+getLetterValue(name)):
j = 0
while j < len(prog('li')):
li = prog('li')[j]
link = li('a')[0]
getLeterValue
是返回其indidcates其中索引的功能这个特定的'ul'标签被放置(根据所需的字母)。
现在我想在链接和文本中拆分链接。我尝试使用re.compile:
match=re.compile('<a href="(.+?)">(.+?)</a>').findall(link.string)
但我得到的是match=[]
我做了什么错?
注: 我知道我应该正则表达式的HTML代码,但我不知道这``规则'是有效的小字符串。另外,出于某种原因,这几乎是xbmc插件编写的标准,我认为这是有原因的。
如果** link.string **类似于** name of link **,那么正则表达式的模式正确匹配它们。但不要调用标识符为'match'的对象,我不认为你重写了**重新**的方法**匹配**,但这是危险的 – eyquem
你应该使用''为我,编枚举(程序):'' – eyquem