2008-08-22 63 views
19

我一直想很多不同的搜索技术如何存在,用于搜索文本,搜索图片,甚至视频。如何在音频文件/流内搜索内容?

但是,我从来没有碰到过的是搜索音频文件中的内容的解决方案。

例如:让我们假设我有大约200个播客以mp3,wav和ogg文件的形式下载到我的电脑。它们都被命名为podcast1.mp3,podcast2.mp3等。因此,不可能知道内容是什么,而不会实际听到它们。可以说,我有兴趣了解哪些播客谈论“游戏编程”。我想要的结果被示出为:

  • Podcast1.mp3 - 在时间索引(ES)3的结果(S) - 〇时16分21秒,0点43分45秒,1点12分31秒
  • Podcast21.ogg - 1个结果在时间索引(ES) - 0时12分01秒

所以我的问题:

  • 何以解决这个问题?
  • 是否有发展到这样做合适的算法?

一个想法在我的脑海里冒出了是,人们可以使用“语音到文本”软件与时间指标相处成绩单每个音频文件,然后解析成绩单来获得输出。

我正在考虑这是我的爱好项目之一。 谢谢!

回答

8

如果您想搜索文本(即你在说什么)的音频流内你就必须用某种语音识别算法来处理它和存储文本与文件相关的元数据。对于视频,您还可以对视频中的文本进行文本识别。 Evernote已经为图像文件中的文本执行此操作,但据我所知,不支持音频。使用音频搜索音频时

类似的事情是可能的。我不知道这些算法的细节,但我猜他们涉及某种频率分析。 Shazam正在使用这种技术来识别基于音频剪辑的歌曲。

这里有一些维基百科文章可能有用: