正则表达式匹配句子

-2

我正在尝试在python中匹配句子的正则表达式。我看到的主要作品是：[^\.\?\!].*?[\.\?\!]，但下面的测试句子有一些错误。你可以看到使用该网站https://regex101.com/。我正在寻找一个包含所有问题的正则表达式，比如省略号，敬语和事物。正则表达式匹配句子

对于英语以外的语言进行标记化，我们可以加载断词/ PUNKT发现相应的语言咸菜文件和然后记号化的另一种语言的文本，这是一个参数标记化（）函数。对于法文文本的标记，我们将使用如下的french.pickle文件：史密斯先生以150万美元的价格购买了cheapsite.com ，即他付出了很多。他介意吗？亚当琼斯小心认为他没有。无论如何，这是不正确的......好吧，与的概率.9它不是。

p.s.如果你想知道我从一本自然语言处理书中得到了上述句子，并且在同一主题上有另一个堆栈溢出问题。

来源

2017-05-02 Patrick Lambert

最简单的方法是将其分成3个操作。

替代即省略号，你想与其他标志物没有像@@@[email protected]@@和@@@[email protected]@@点什么都。
匹配句子。
之后，重建即省略号。

更新：一些代码如何做到这一点。你必须为你想从句子匹配中排除的每个项目做替换。

sentences = re.sub(r'i\.e\.', "@@@[email protected]@@", sentences); 
matches = re.match(r'[^\.\?\!].*[\.\?\!]', sentences); 
matches = re.sub(r'@@@[email protected]@@', "i.e.", matches);

来源

2017-05-02 21:34:48

是的，你会怎么做？ –

用代码示例更新了答案 –

好的，但请记住它并非如此简单，因为对于每种语言，您必须使用点处理至少一千个词典（至少），并为此处理数千个或更多的子串如果你想要一些有效的东西，就不能这样做。 –

正则表达式匹配句子

回答

相关问题