拉丁语基础语言分割格式规则

我正在研究一种功能，即对基于拉丁语的语言（当前是英语）应用语言分段规则（语法）。拉丁语基础语言分割格式规则

目前我处于打破用户输入句子的阶段。

e.g.: 

"I am working in language translation". "I have used Google MT API for this"

在上面的例子中，我将通过句号（。），这是我上点突破一句正常的情况下，但也有n个字符的数量打破一句话（！？等等）上破句。

我有以下用于分割的SRX规则。

这里我的问题是： -

1）是否有任何引用？我可以用它来解决我的语言分割规则。

2）或者有没有关于语言分割的论坛？，这样我可以有效地讨论

请让我知道是否有人知道这件事？

非常感谢。

来源

2010-05-12 pravin

你的标签没有意义，我已经改变它（我认为）更好一点......它是关于自然语言的，但是*编程*语言不可知的:) – 2010-05-12 06:18:13

嘿谢谢你快速回复:) 是的...这是自然语言不是编程语言.. 我已经遵循http://www.lisa.org/fileadmin/standards/srx20.html#refTR29（SRX规则），但我没有与这些家伙互动......建议我的其他链接或论坛，以便我可以有效地进行交流......谢谢 – pravin 2010-05-12 06:24:01

那么英语主要是基于黑暗时代的撒克逊方言。语法是一种古老的德语，与一小撮中世纪法语相结合的独特组合。拉丁文有很多词汇，但除了奇怪的怪癖外（基准数据为单数），几乎没有英文基于拉丁语的文法。 – 2010-05-12 06:51:35

你可能想看看Reynar和Ratnaparkhi的论文A Maximum Entropy Approach to Identifying Sentence Boundaries（1997）。

摘要

我们提出了识别原始文本句子边界的可训练的模式。给定一个注释了句子边界的语料库，我们的模型学习将每个出现的分类为？，？和/或为有效或无效的句子边界。训练程序不需要手工制定的规则，词法，词性标记或特定于域的信息。该模型因此可以轻松地训练任何类型的英语，并且应该可以在任何其他Romanalphabet 语言上进行训练。性能可比达到或优于类似系统的性能，但我们强调重新训练新域的简单性。

它们的结果语句分段器被称为MxTerminator并且可用here。

来源

2010-05-12 09:24:34 dmcer

似乎是文学的关于这个语言学期刊量好...

这是有关该问题的一个很好的报告，希望它可以帮助你 http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports

尼科

来源

2010-05-12 06:29:37 nico

拉丁语基础语言分割格式规则

回答

相关问题