按句点分割句子后跟一个大写字母

-1

我试图找到一个正则表达式，它将一段文本拆分为./?/!之后的一个空格，后面跟着一个大写字母。按句点分割句子后跟一个大写字母

"Hello there, my friend. In other words, i.e. what's up, man."

应该拆分：

Hello there, my friend| In other words, i.e. what's up, man|

我可以得到它拆就./?/!，但我没有运气得到的空间和大写字母的标准。

我想出什么样的主意：

.split("/. \s[A-Z]/")

2017-05-11 Harry B.

向我们展示你的正则表达式到目前为止使用。 –

到目前为止你写了哪些正则表达式？ – gaganshera

请注意，根据你的要求，最后的'.'不应该分开。 –

拆分一段文字为句子基础上，这是一个标准的./?/！接着是一个大写字母后面的空格。

您可以使用基于一个超前正则表达式：

s = "Hello there, my friend. In other words, i.e. what's up, man." 
puts s.split(/[!?.](?=\s+\p{Lu})/)

见Ruby demo。如果您还需要在字符串末尾使用标点符号进行拆分，请使用/[!?.](?=(?:\s+\p{Lu})|\s*\z)/。

详细：

注意：如果您需要将常规英文文本拆分为句子，则应考虑使用现有的NLP解决方案/库。参见：

后者是基于正则表达式，并且可以容易地与多个正则表达式延长。

2017-05-11 19:50:26

除了Wiktor的答案你还可以使用lookarounds找零宽度和分裂。

正则表达式：(?<=[.?!]\s)(?=[A-Z])发现零宽度由任一[.?!]和空间之前和之后的大写字母。

s = "Hello there, my friend. In other words, i.e. what's up, man." 
puts s.split(/(?<=[.?!]\s)(?=[A-Z])/)

输出

Hello there, my friend. 
In other words, i.e. what's up, man.

如果OP想打破串入句子我建议(?<=[.?!])\s+(?=[A-Z])，因为它句子之间消除空间，并能使这种空间的数量大于一

2017-05-11 19:53:48 Rahul

我不会在这里使用lookbehind，因为它的宽度是固定的，并且很难控制空白。但是，OP示例和要求不能100％匹配，目前无法提供最佳答案。 –

@WiktorStribiżew：同意。 – Rahul

如果OP想要将字符串分解成句子，我会建议'（？<= [。？！]）\ s +（？= [AZ]）'，因为它删除句子之间的空格，并允许这些空格的数量大于一个。 –

回答