我与一些HTML解析HTML应对内容,而且我具有限定的方式来解决所提取的信息相当辛苦。的办法来解决在Python类
例如,考虑一个像这样的页面http://www.the-numbers.com/movies/1999/FIGHT.php。我想要解决每个内容,例如The Numbers Rating
,Rotten Tomatoes
,Production Budget
,Theatrical Release
和其他,这样我就可以存储每个“密钥”可能承担的值。
提取过程为我解决,我不确定是否存储这些内容的正确方法。正如我所说的,他们像“钥匙”一样工作,所以dictionary
是一个相当直接的答案。尽管如此,我仍然在为我正在建造的课程中的每个“关键”添加一个成员。
问题在于,在访问这些内容的过程中,考虑代码编写,哪种方法可以更好地工作,以及这些方法是否是最佳方法。
我会的,对于第一种情况,是这样的:
class Data:
def __init__(self):
self.data = dict()
def adding_data(self):
self.data["key1"] = (val1, val2)
self.data["key2"] = val3
self.data["key3"] = [val4, val5, val6, ...]
而对于第二个:
class Data:
def adding_data(self):
self.key1 = (val1, val2)
self.key2 = val3
self.key3 = [val4, val5, val6, ...]
为什么我考虑这样做的原因是,我使用BeautifulSoup
API,并且我非常喜欢他们在生成的“汤”上标记每个标签的方式。
soup = BeautifulSoup(data)
soup.div
soup.h2
soup.b
您认为哪种方式更加用户友好?有没有更好的方法来做到这一点?
我会采纳您的建议!感谢帖子! – Rubens