2009-10-31 24 views
1

我在泰卢固语脚本,其unicode的范围是工作0C01-0C7F u能解释如何(从that问题更新复制)发现在想知道如何获得泰卢固语脚本中的音节

音节

我能够对字符进行分类,但在泰卢固语脚本中,一个音节可能包含一个或多个字符,并且当从文件中检索字符时,音节被分割并且无法将它们合并,所以请帮助我了解泰卢固语脚本文本分类

回答

2

我不说泰卢固语(对不起! ),但我确实明白这是一个音节性的语言,音节由元音(“achchu”)和辅音(“hallu”)组成。因此,正如wikipedia所解释的那样,你最终会得到“六十个符号,其中16个是元音,三个元音修饰符和四十一个辅音”。 This page显示Unicode对应关系:元音是0C05到0C14(还有0C60和0C61,“声乐”RR和LL);辅音是0C15到0C39;其他代码是许多“标志,标点符号,数字”等等。

一个可能的音节完整的表格在this PDF,但我承认剧本是扔我了,因为我有麻烦告诉什么是什么。如果你说泰卢固语,或者很容易接触到那些做过的人,那么你将会是一个更好的地方,告诉我如何从泰卢固语字符流中雕刻出音节,而不是我。 Python与它没有多大关系 - 它只是一种编程语言,它可以让你实现任何你需要的音节决定的算法,但是它绝对没有内置的这样的算法! - )

2

在泰卢固语,形成在几个方面

  • V中的音节(在字中的独立形式的开头)
  • C + V(在从属形式辅音+元音)
  • C + C + V(辅音+辅音+元音)
  • C + C + C + V辅音+辅音+元音)

如果您正在使用英语脚本音译为泰卢固语(如谷歌音译工具),它是可能的许多英文字符形成只是一个音节。

考虑“stree”(在谷歌音译工具中输入此内容),这在泰卢固语中只形成一个音节。您可以在http://rishida.net/tools/analysestring/index.php?list =地点分析该泰卢固语字符串以了解泰卢固音节是如何形成的。

你有两种选择的2解决这个问题

[1]找出代码点序列,如果您的输入是在泰卢固语脚本。并且基于元音结束和新的syllalbe开始的时候对代码点序列进行分组。

[2]如果你的输入是英文的,它映射到泰卢固语字符,那么你需要弄清楚什么时候把序列分成多个音节。

相关问题