2017-10-11 26 views
2

我正在研究设计一个软件平台,可以帮助语言学家和人类学家研究以前未研究的语言。统计数据显示,大约有1000种语言存在,这些语言从未在其各自演讲人群之外进行过研究。IPA(国际音标字母)用Tensorflow转录

我的目标是利用TensorFlow创建一个平台,让语言学家能够更有效地学习和记录这些语言,并帮助他们为没有书面系统的人创建书面系统。他们目前完成这项任务的方法之一是三方面的:1)记录一位母语人士在语言中交谈,2)聆听该录音并试图将其录制到IPA中,3)从语音学分析语音学和语言的语音音调,最终为演讲者创建一个书面系统。

我建议的平台会将研究时间从最少一年减少到最多六个月。在我开始之前,我有一些问题...

培训TensorFlow将现场音频转录到IPA需要什么?这已经完成了吗?如果是这样,我将如何利用此项目的先前解决方案? TensorFlow甚至可能有这样的项目吗?如果不是,你会推荐使用什么?

我对这个问题的严重性表示歉意。我在机器学习领域没有太多经验,因为我刚开始研究这个项目的过程。任何帮助表示赞赏!

+0

你是否和一位语言学家讨论过这个问题?音素识别可能比识别单词困难得多https://cmusphinx.github.io/wiki/phonemerecognition/ – Aaron

+0

@Aaron在技术上,它是*电话*在这里,而不是音素,但不知道它是否使它更好... – lenz

回答

1

我想我会先回答这个问题。由于这个问题相当普遍,我的答案也必须相当一般。

  1. 将需要什么。至少你必须有一个预先转录数据的大型数据集。理想情况下,将大量口语语音映射到拼音字母中的字符,因此系统可以学习单个字符的声音而不是整个转录的单词。如果这样的数据集不存在,则可以使用不太细化的数据集,将单个单词映射到它们的转录。那么你需要一个模型,就是在代码中实现的实际神经网络架构。最后你需要一些计算资源。这不是你可以随便训练的东西,你要么必须在基于云的机器学习框架(如Google Cloud ML)上购买一些时间,要么在家中建立一个相当昂贵的机器进行培训。

  2. 这样做了吗?我不知道。我不这么认为。已经有发表的论文报道了不同程度的成功训练系统来转录语音。这里是一个,例如,http://deeplearning.stanford.edu/lexfree/lexfree.pdf看起来,因为你想转录的字母表是专门设计来捕捉单词声音的方式,而不是只写下单词,所以在培训这样的模型时可能会取得更大的成功。

  3. TensorFlow可能吗?是的,很可能。 TensorFlow非常适合实施大多数现代化的深度学习架构。除非你最终为此设计了一些非常奇怪和非常原始的模型,否则TensorFlow应该工作得很好。

编辑:在第1部分经过一番思考,你将不得不使用说出的话自己抄录数据集的映射,因为我希望单独发音相同的声音是从当相同的声音是不同的用在一个字里。