2015-05-30 29 views
10

我试图将电话(字符)出现在一个字符串中,但变音符列表为字符。理想情况下,我在国际音标字母表中有一个单词表,有相当数量的变音符号和它们与基本字符的几种组合。我只用一个词给这里一个MWE,但是同样有单词列表和更多类型的组合。使用R中的变音符制表字符

> word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a] 
> table(strsplit(word, "")) 
̥ a n 
1 2 2 

但通缉的结果是:

a n n̥ 
2 1 1 

我怎么能设法得到这种结果?

回答

7

尝试

library(stringi) 
table(stri_split_boundaries(word, type='character')) 
#a n n̥ 
#2 1 1 

或者

table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE)) 
#a n n̥ 
#2 1 1