我有一些文本;我想提取未被标点符号分隔的单词对。这是代码:Java正则表达式跳过匹配
//n-grams
Pattern p = Pattern.compile("[a-z]+");
if (n == 2) {
p = Pattern.compile("[a-z]+ [a-z]+");
}
if (n == 3) {
p = Pattern.compile("[a-z]+ [a-z]+ [a-z]+");
}
Matcher m = p.matcher(text.toLowerCase());
ArrayList<String> result = new ArrayList<String>();
while (m.find()) {
String temporary = m.group();
System.out.println(temporary);
result.add(temporary);
}
问题是它跳过一些匹配。例如
“我的名字是詹姆斯”
,n = 3时,必须匹配
“我的名字是” 和 “的名字是詹姆斯”
,但它只是匹配第一个。有没有办法解决这个问题?
+1我知道**有更好的方法。 –