0
我可以分析,看起来像一个文件:创建列表在Python
<a href="http://www.youtube.com/watch?v=DpQNMBzwShs"></a>
但是当我给它只是:
http://www.youtube.com/watch?v=DpQNMBzwShs
它的错误。
如何将soup
转换为完全忽略# extract youtube video urls
过程的列表,这是我认为我需要做的吗?
# parse bookmarks.html
with open(sys.argv[1]) as bookmark_file:
soup = BeautifulSoup(bookmark_file.read())
# extract youtube video urls
video_url_regex = re.compile('http://www.youtube.com/watch')
urls = [link['href'] for link in soup('a', href=video_url_regex)]
# extract video ids from the urls
ids = []
for video_url in urls:
url = urlparse.urlparse(video_url)
video_id = urlparse.parse_qs(url.query).get('v')
if not video_id: continue # no video_id in the url
ids.append(video_id[0])
当我print soup
它给了我,我想我可能只是利用现有的代码和urls = soup
提取视频的ID,但URL列表,当我做,它说我只有1个网址。
感谢
就是这样!我仍然开始,这真的很有帮助谢谢。不知道我是否应该在这里发布这个,但是当我做出这个改变时,我现在得到一个不同的错误。 –
@DavidNeudorfer - 新错误是什么? – mac
我已经开始了一个新的问题[这里](http://stackoverflow.com/questions/8422302/python-youtube-gdata-api-broken-after-small-change)谢谢@mac –