2011-07-21 67 views
2

我正在研究一个系统,可以根据各种用户输入(如音节模板或修改的Backus Naur表单)创建构成fanatsy的单词。然而,一种新模式计划为机器学习。在这里,用户没有明确定义任何规则,而是粘贴一些文本,系统学习给定单词的结构并创建相似的单词。机器学习的单词结构

我现在幼稚的做法是创建信邻里概率表(包括特殊结束字“字母”),并通过字母对扫描输入(使用空格和标点符号作为单词加油吧边界)。创建一个词将意味着查找每个字母的概率以跟随当前字母,并根据概率随机选择一个,并重复,直到遇到字末尾。

但我正在寻找更复杂的方法(可能?)提供更好的结果。我对机器学习知之甚少,因此对主题,技术或算法的指点表示赞赏。

+1

一个小问题:在语言中,如果您生成单词序列(另一个问题)或字母序列(您要求的),可能会生成一个新的单词/字母,考虑到最后**两个**字/字母(而不只是一个)。它仍然涉及相同的算法。其他文字/字母不会产生明显更好的结果。 – Fezvez

回答

2

我认为对于独立词(特别是名字),一个简单的马尔可夫链系统(你似乎在谈论使用字母对时描述的)可以表现得很好。给它一个词典,并根据它学到的东西把它放到一个新的名字上。你可能想调整马尔可夫链的前缀长度,以得到很好的听起来的结果(正如在你的问题的评论中指出的那样,2个字母比一个好得多)。

我曾经用精灵和兽人名字词典试过,得到了非常满意的结果。

+0

听起来很有希望,谢谢。 –