2010-05-12 31 views
3

我正在研究一种功能,即对基于拉丁语的语言(当前是英语)应用语言分段规则(语法)。拉丁语基础语言分割格式规则

目前我处于打破用户输入句子的阶段。

e.g.: 

"I am working in language translation". "I have used Google MT API for this" 

在上面的例子中,我将通过句号(。),这是我上点突破一句正常的情况下,但也有n个字符的数量打破一句话(!?等等)上破句。

我有以下用于分割的SRX规则。

这里我的问题是: -

1)是否有任何引用?我可以用它来解决我的语言分割规则。

2)或者有没有关于语言分割的论坛?,这样我可以有效地讨论

请让我知道是否有人知道这件事?

非常感谢。

+0

你的标签没有意​​义,我已经改变它(我认为)更好一点......它是关于自然语言的,但是*编程*语言不可知的:) – 2010-05-12 06:18:13

+0

嘿谢谢你快速回复:) 是的...这是自然语言不是编程语言.. 我已经遵循http://www.lisa.org/fileadmin/standards/srx20.html#refTR29(SRX规则),但我没有与这些家伙互动......建议我的其他链接或论坛,以便我可以有效地进行交流......谢谢 – pravin 2010-05-12 06:24:01

+0

那么英语主要是基于黑暗时代的撒克逊方言。语法是一种古老的德语,与一小撮中世纪法语相结合的独特组合。拉丁文有很多词汇,但除了奇怪的怪癖外(基准数据为单数),几乎没有英文基于拉丁语的文法。 – 2010-05-12 06:51:35

回答

1

你可能想看看Reynar和Ratnaparkhi的论文A Maximum Entropy Approach to Identifying Sentence Boundaries(1997)。

摘要

我们提出了识别原始文本 句子边界的可训练的模式。给定 一个注释了句子边界的语料库, 我们的模型学习将每个出现的 分类为?,?和/或为有效或无效的 句子边界。训练程序 不需要手工制定的规则,词法, 词性标记或特定于域的 信息。该模型因此可以轻松地训练任何类型的英语,并且 应该可以在任何其他Romanalphabet 语言上进行训练。性能可比 达到或优于 类似系统的性能,但我们强调重新训练新域的简单性 。

它们的结果语句分段器被称为MxTerminator并且可用here