我正在研究一种功能,即对基于拉丁语的语言(当前是英语)应用语言分段规则(语法)。拉丁语基础语言分割格式规则
目前我处于打破用户输入句子的阶段。
e.g.:
"I am working in language translation". "I have used Google MT API for this"
在上面的例子中,我将通过句号(。),这是我上点突破一句正常的情况下,但也有n个字符的数量打破一句话(!?等等)上破句。
我有以下用于分割的SRX规则。
这里我的问题是: -
1)是否有任何引用?我可以用它来解决我的语言分割规则。
2)或者有没有关于语言分割的论坛?,这样我可以有效地讨论
请让我知道是否有人知道这件事?
非常感谢。
你的标签没有意义,我已经改变它(我认为)更好一点......它是关于自然语言的,但是*编程*语言不可知的:) – 2010-05-12 06:18:13
嘿谢谢你快速回复:) 是的...这是自然语言不是编程语言.. 我已经遵循http://www.lisa.org/fileadmin/standards/srx20.html#refTR29(SRX规则),但我没有与这些家伙互动......建议我的其他链接或论坛,以便我可以有效地进行交流......谢谢 – pravin 2010-05-12 06:24:01
那么英语主要是基于黑暗时代的撒克逊方言。语法是一种古老的德语,与一小撮中世纪法语相结合的独特组合。拉丁文有很多词汇,但除了奇怪的怪癖外(基准数据为单数),几乎没有英文基于拉丁语的文法。 – 2010-05-12 06:51:35