我试图分裂(与使preg_split)有很多外国字符和数字到文字和数字长度> = 2,无ponctuation文本。 现在我有这个代码,但它只分成单词,没有考虑数字和所有长度> = 2的长度。 我该怎么办?拆分文本单词数支持Unicode(使preg_split)
$text = 'abc 文 字化け, efg Yukarda mavi gök, asağıda yağız yer yaratıldıkta; (1998 m. siejės 7 d.). Ton pate dėina bandomkojė бойынша бірінші орында тұр (79.65 %), айына 41';
$splitted = preg_split('#\P{L}+#u', $text, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
预期的结果应该是:array('abc', '字化け', 'efg', 'Yukarda', 'mavi', 'gök', 'asağıda', 'yağız', 'yer', 'yaratıldıkta', '1998', 'siejės', 'Ton', 'pate', 'dėina', 'bandomkojė', 'бойынша', 'бірінші', 'орында', 'тұр', '79.65', 'айына', '41');
注意:这些文档已经尝试过link1 & link2,但我无法得到它的工作原理: -/
你得到的实际结果是什么? –
现在的结果是:阵列 ( [0] => ABC [1] =>文 [2] =>字化け [3] => EFG [4] => Yukarda [5] = >马维 [6] =>斛 [7] =>asağıda [8] =>yağız [9] =>揭掉 [10] =>yaratıldıkta [11] =>米 [12] => siejės [13] => d [14] =>吨 [15] =>颈部 [16] =>dėina [17] =>bandomkojė [18] =>бойынша [19] =>бірінші [20] =>орында [21] =>тұр [22] =>айына ) – Albertine
你的意思,你_don't_希望它匹配任何单词包含标点符号(即'79 .65'不匹配),还是希望它匹配'79'和'65'? – Danack