2014-12-02 36 views
1

连字符库似乎是非常流行和自由的方式来在你的应用中连字符。连字符库:“连字符”是什么意思?

连字矢量是什么意思?

我正在运行附加到库源代码的示例。 示例输出:

hibernate // input word 
030412000 // output hyphenation vector 
hi=ber=nate // hyphen points 
- hi=bernate 
- hiber=nate 

向量中的奇数表示连字点。但是,所有这些价值是什么意思?

回答

2

LászlóNémeth详细描述了OpenOffice's documentation中的算法。

该库使用Frank M.Liang开发的算法(“Word-Hy-phen-a-tion by Com-pu-ter”):在二元词组,三元组和更长模式中的所有字母都被赋予数字值以指示它是一个'平常'的地方(奇数)或'异常'的地方(偶数)连字符发生。数字越高,重要性越高 - 一个模式几乎不会在较大的偶数上被破坏,并且几乎总是在一个更大的奇数上。数字序列在统计上在预先连字的词汇的语料库上确定。

请注意,数字是针对之间的两个字符。更好的符号本来是

h i b e r n a t e 
0 3 0 4 1 2 0 0 (0) 

(其中最后0已过时)。

+0

感谢您的解释!所以基本上,我应该比'hiber-nate'更频繁地打断'hi-bernate'(因为我们在向量中的第二个字母之后有'3') – fen 2014-12-02 10:09:14

+1

这只意味着'hi-bernate'和'hiber-nate'是*有效的连字点,而不是一个优于另一个。这些值本身只是统计*每个模式*,并不意味着与同一单词中的其他模式相关的任何内容。 – usr2564301 2014-12-02 10:20:20

+0

好的,听起来很合理。 – fen 2014-12-02 10:57:20

相关问题