我一直想很多不同的搜索技术如何存在,用于搜索文本,搜索图片,甚至视频。如何在音频文件/流内搜索内容?
但是,我从来没有碰到过的是搜索音频文件中的内容的解决方案。
例如:让我们假设我有大约200个播客以mp3,wav和ogg文件的形式下载到我的电脑。它们都被命名为podcast1.mp3,podcast2.mp3等。因此,不可能知道内容是什么,而不会实际听到它们。可以说,我有兴趣了解哪些播客谈论“游戏编程”。我想要的结果被示出为:
- Podcast1.mp3 - 在时间索引(ES)3的结果(S) - 〇时16分21秒,0点43分45秒,1点12分31秒
- Podcast21.ogg - 1个结果在时间索引(ES) - 0时12分01秒
所以我的问题:
- 何以解决这个问题?
- 是否有发展到这样做合适的算法?
一个想法在我的脑海里冒出了是,人们可以使用“语音到文本”软件与时间指标相处成绩单每个音频文件,然后解析成绩单来获得输出。
我正在考虑这是我的爱好项目之一。 谢谢!