机器学习的单词结构

我正在研究一个系统，可以根据各种用户输入（如音节模板或修改的Backus Naur表单）创建构成fanatsy的单词。然而，一种新模式计划为机器学习。在这里，用户没有明确定义任何规则，而是粘贴一些文本，系统学习给定单词的结构并创建相似的单词。机器学习的单词结构

我现在幼稚的做法是创建信邻里概率表（包括特殊结束字“字母”），并通过字母对扫描输入（使用空格和标点符号作为单词加油吧边界）。创建一个词将意味着查找每个字母的概率以跟随当前字母，并根据概率随机选择一个，并重复，直到遇到字末尾。

但我正在寻找更复杂的方法（可能？）提供更好的结果。我对机器学习知之甚少，因此对主题，技术或算法的指点表示赞赏。

一个小问题：在语言中，如果您生成单词序列（另一个问题）或字母序列（您要求的），可能会生成一个新的单词/字母，考虑到最后**两个**字/字母（而不只是一个）。它仍然涉及相同的算法。其他文字/字母不会产生明显更好的结果。 – Fezvez

我认为对于独立词（特别是名字），一个简单的马尔可夫链系统（你似乎在谈论使用字母对时描述的）可以表现得很好。给它一个词典，并根据它学到的东西把它放到一个新的名字上。你可能想调整马尔可夫链的前缀长度，以得到很好的听起来的结果（正如在你的问题的评论中指出的那样，2个字母比一个好得多）。

我曾经用精灵和兽人名字词典试过，得到了非常满意的结果。

2011-07-21 13:41:48 samy

听起来很有希望，谢谢。 –

回答